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Die f olgenden Angaben «nd den vom i 

<g) Regtetrierverfahren 

© Beschrieben wird ein Verfah ran zum Betrieb einer urn- 
konfigurferbaren Elnheit. Es wird dabei vorgescrilagen, 
dafis Qmttierungssignafe dor die umkonfigurferbaren Efn- 
heit bildanden ZeJlen ZBitli'ch versirtzt zu cteren Konfi gura- 
tion ausgewertet word en. 
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Beschreibung 

Aufgabe der Erfindung und Anwendungsbereiche 

5 [0001] RDY/ACK/RRJ-ProtokolJundncadlock-Freiheit. 

[0002] Das aus PACT10 bekannte RDY/ACK/REJ Protokoll kann nicht tiber mehrere Register gepipeUned warden. 
10003] Zur Hrhohung der Gnmdfiequenz einer VPU sind mehrere Registerstufeo jedoch zwingend notwendig. Da- 
durcb ergibt sich eine unakzeptable Verzogerung bis zum Eintreffen der Quittierung der Konfigurarionsdaten bei dem 
CT. 

10 [0004] Es werden im folgenden zwei grundlcgende Losungen fur dieses Problem aufgezeigL 

I.Tjookup-labelleo 

[00O5] In eine CT oder 2602 interne labelle wild der Zustand der einzelnen KfNEs verwaltet D. h. filr jede PAE exisi- 
15 text cin Eintrag, der anzeigt ob die PAE unkonfiguriert werden kann. 

a) Jede PAE sendet ein Statussignal an die labelie wenn sich ihr Zustand von "nicht umkonfigurierbar- auf "konfi- 
gurierbar" andert Dieses Statussignal kann gepipclined gesendet werden, 

b) Ebenfalls ist es moglicb, daB ein Statussignal fur eine Gruppe von PAEs gesendet wird, das anzeigt, daB sieh der 
20 Zustand fur die gesamte Gruppe geandert hat Ober cine liste werden samtlichc PAEs die zur Gruppe gchoren au s- 

gewahlt und der Zustand filr jede einzelne PAE in der labelie geandert 

[0006] Zur tJberprufungdesZustandes einer PAE wird 

25 a) vor dem Ausfuhren der pa-Befehle wird jede darin enthaUene PAE gepruft, indem fur jede PAB ein Lookup in 
der labelie durchgefuhrt wird Eire nicht konttgurierbare R\E ruhrt zu einem Abbrucb, der pa-Befehl wird nicht 
ausgefuhrt; oder 

b) bcim Absenden der Adresse der Ziel-PAE durch cin pa-Befehl wird die Lookuptabelle abgefiagt und dement- 
sprechend ein ACK oder REJ generiert (dieser Ansatz entspricht dem herkommlichen RDY/ACK/REJ \ferfabren). 

30 

2. Auswcrten der ACK/REJ Quitriertmg mit Latency 

[0007] Das RDY-Signal wird mit den Konfigurationsdaten fiber mehrere Pipeune-Sturen an die Ziel-PAE gesendet 
35 Die Konfigurationsdaten werden nicht sofort im entsprechenden Konfigurationsregister gesrxachert, sondem in ein tem- 
porates Register geschrieben. Die PAE generiert die ACK/REJ-Quittierung gemaB des intern verwalteten Urnkonfigura- 
tionsstatus (vgL PACT10). Die Quitlierung wird ebenfalls gepipehned an die CT zuriickgesendet In der CT cxisdert ein 
Zahler der bed jedem emtreffenden ACK um ein s erboht wird. In einem separaten Register wird gespeichert, ob ein REJ 
anftrat wurde, 

40 [0008] Nacfadem der pa-Bcfehl abgeschlossen wurde wind nach einer Latency von n-Taklen der Zahler und das Regi- 
ster ausgewertet 1st in dem Register ein REJ vermerkt muS der pa-Befehl nochmais ausgefilhrt werden. Dazu wird der 
Zahlcrstand entwedor in den Oflsctspeicher kopiert (pabmm) oder in das angegebene Register gespeicbert (pabmr). Der 
Wert reprasentiert das Kcmfigurationswort, das mit einem REJ-quitoert wurde und nochmais ausgefuhrt werden muB. 
[0009] Terminiert der pa-Befehl ohne Auftreten eines REJ wird ein Signal STORE an die beteiligten PAEs gesendet 

45 Daraufbin werden die Xonfigurationsworter von dem temporaren Register in das entsprecbende Konfigurationsregister 
geschrieben und die Datenoperadonen werden gestartet 

[0010] 1ST DAS SATJBER? DEADLOCK, was ist nrit EAEs, die nach dem REJ aufgrund der Latency noch Daten ab- 
bekamen?! 

[0011] Keine OK-Leitung vexwenden, sondern cin Register bei den entsprechenden PAEs cmtuehrcn. 

50 

Wave-Reconfiguration 

[0012] Durch eine geeignefce Hardwarearchitektur (vgL Fig. 10/11) ist es mogfich mehrere Module zu Uberiappczt 
D. h. mehrere Module sind gleichzeitig in den PAEs vorkonfiguricrt und es kann mit minimalem Zeitautwand zwischen 
55 den Konfigurationen urngeschaltet werden, so dafi aus einer Menge von mehreren Konfigarationen pro B\E irnmer ge- 
nau eine Konfiguration aktiviert ist. 

[0013] Wesentlicfa ist, daB dabei in einer Menge von PAEs in die ein Modul A und B vorkonfiguriert ist cin 1ml der 
Menge mit einem Teil von A und eine anderer Teil der Menge gleichzeitig mit einem Teil B aktiviert sein kann. Dabei ist 
die Irennung der beiden Teile exakl durch die PAE gegeben, in der der Umschaliezustand zwischen A und B auflritt Das 
60 bedeutet daB ausgehend von einem bestimmten Zeitpunkt bei alien PAEs bei denen vor diesem Zeitpunkl A zur Ausfuh- 
rung aktiviert war B aktiviert ist und bei alien anderen PAEs nach diesem Zeitpunkt immer noch auf A aktiviert ist Mit 
steigender Zeit wird bei irnmer mehr PAEs B aktiviert 

[00141 Die Umschaltung erfolgt aufgrund von bestimmten Daten, Zustanden die sich aus der Berechnung der Daten er- 
geben oder aufgrund beliebiger anderer Ereignissc, die beispiels weise von extern oder der CT generiert werden. 
65 [0015] Das bewirkt daB direkt nach Verarbeitung eines Datenpaketes zu einer anderen Konfiguration umgeschattet 
werden kann. Gleichzeitig/AIternativ kann ein Signal (RECONFTG-TRIGGER) an den CT gesendet werden, das das 
Vorladen von neuen Konfigurationen durch den CT bewirkt Das Vorladen kann dabei auf anderen von der aktuellen Da- 
tenverarbeitung abhangigen oder unabbangigen PAEs erfolgen. Durch eine Entkopplung der aktiven Konfiguration von 
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den zur Unkonfiguration zur Verfugung stehenden Konfigurationen (vgl. Fig. 10/11) konnen auch gerade arbeitende (ak- 
tive) PAEs, insbesondere auch die PAH, die den lUiCQNHG-TRIGGER erzeugte, mit neuen Koafigurationeo geladen 
werden. Dies ermoglicht eine mit der Daienverarbeitung iibeiiappende Konfiguration. 

[0016] In Pig. 1 3 ist das Grundprinzip der Wave-Reconfiguration (WRQ daigestelk. Dabei wird von einer Reihe von 
PAEs (PAE1-9) ausgcgangcn, durch die die Daten pipelineahnlicb laufen. Es wird ausdriicklich daranf hingewiesen, daB 
WRC nicht auf Pipelines beschrankt ist und die \fernetzung und Gruppierung der PAEs jede behebige Form annehmen 
kann. Die Darstellung wurdc jedoch gewShlt urn ein einfaches Beispiel zum besseren Verstandnis zu zeigen. 
[0017] In Fig. 13a lauft ein Datenpaket in <fie PAE1 . Die PAB besitzt 4 mogliche Konfigurationen (A, F, H, Q, die 
durch eine geeignete Hardware (vgi. Fig. lGrtl) wahibar sind. Die Konfigiiration F ist in in PAE1 fur das aktuelle Da- 
tenpaket aktiviert (schraffiert dargestelll). 

[0018] Im nachsten lakt lauft das Dalenpakt nach PAE2 und ein neues Datenpaket erscheiut in PAE1 . Auch in PAE2 ist 
F aktiv. Zusammen mit dem Datenpaket erscheint ein Ereignis (| 1) bci PAK1 . Das Ergnis entstcht durch Ei otreffen eincs 
beliebigen Ereignisses voa aussen bei der PAE (z. B. eines Statusflags oder Triggers) oder wird inncrhalb der PAE durch 
die ausgeffihrte Berechnung generiert 

[0019] In Fig. 13c wird in PAE1 aufgrund des Erdgnisscs (f 1) die Konfiguradon H aktiviert, gleiebzeitig erscheint cio 

neues Ereignis (f 2), das im nachsten Takt (Fig. 13d) die Akdvierung von Konfiguration A bewirkL 

[0020] In Fig. 13e trim (f 3) bei PAE1 . die das Uberschreiben von F mit G bewirkt (Fig. 1 3f), Durch das Eintreflfen von 

(f4) wird G aktiviert (Fig. I3g). (f5) bewirkt das Laden von K ansietle von C (Fig. 13h, i) und (|6) iadt und starlet F an- 

stellevonH(FSg.l3j). 

[0021] In den Fig. 13g*) bis 13j*) wird verdeutlicht, daB beim Durchlaufen einer Wave-Reconfiguration nicht alle 
PAEs nach demselben Muster arbeiten musseu. Wie eine PAE von einer Wave-Reconfiguration konfiguriert wird, ist 
prinziptell abhgngig von ihrer eigenen Konfiguration. Hier soli dargestellt werden, daB PAE4 bis PAE6 derail konfigu- 
riert sind, daB sie anders auf die Ereignisse reagieren, als <fie tibrigen B\Es. Beispielsweise wird in Fig, 13g*) aufgrund 
von Ereignis ]2 nicht A sondem H aktiviert (vgL Fig. 13g). Dasselbe gill fur 13h*). Aufgrund von Ereignis f 3 wird in 
Fig. 13i*) nicht G geladen, sondem die Konfiguralion F bLeibt bestehen und A Weibt aktiviert In Fig. I3j*) ist bei PAB7 
angedeutet, daB Ereignis f 3 wieder das Laden von G auslosen wird. In PAB4, bewirkt das Ereignis f 4 das Aktrvieren von 
F anstatt der Konfiguration G (vgl. Fig. 13j). 

[0022] In Fig. 13 bewegt sich eine Welle von Urnkonfigurationen aufgrund von Ereigmssen durch eine Menge von 
PAEs, die 2- oder mehrdimensional ausgestaltet sein kann, 

[0023] Es ist nicht zwingend notwendig, daB eine einmal stattfindende Umkonfiguration durch die gesamlen RuB hin- 
weg stattfindet Beispielsweise konnte die Umkonfiguration mit der Akdvierung von A aufgrund des Ereignisses (J 2) nur 
lokal in den PAEsl bis 3 und PAE7 stattfinden, wahrend in alien andcren PAEs weitcrhin die Konfiguration H aktiviert 
bleibL 

[0024] MitanderenWorten: 

a) Es ist moglicfa, daB ein Ereigniss nur lokai auftritt und daher nur lokal eine Umakrivierung zur Folge hat, 

b) ein globales Ereignis, hat moglicherweise keine Auswirkung auf manche PAEs; abhangig votn ausgefiihrten Al- 
gorithmus. 

(0025] Bei den PAEs die each (|2) wdierhin H aktiviert balten, kann sdbsrverstandlich das Entreffen des Ereignisses 
(|3) vollkommen andere Auswirkungen haben, (I) wie etwa das Aktivieren von C start dem Laden von G, (ii) anderer- 
scits konnte (|3) auf diese PAEs auch gar keinen EinfluB haben. 

Das Prozessorraodell 

[0026] Die in den folgenden Figuren gezeigten Graphen besitzen als Graphenknoten immer in Modui, wobei davon 
ausgegangeo wird, daB mehrere Module auf einen Zieibausteio abgebildct werden konnen. Das heiBt, obwohl alle Mo- 
dule zeitlich voneinander unabhangig sind, wird nur bet den Moduien eine Umkonfiguratioo diirchgefiibrt, und/oder ein 
Datcnspeicher cingefugt, die mil dnern vertikalen Strich und At markiert sind. Diescr Punkt wird Umkoofigurationszci t- 
punkt genannt. 

[0027] Der Umkonfigurationszei tpunkt ist abhangig von den bestimrnten Dalen oder den Zustfinden die sich aus der 
Verarbcitung der bestimmteo Da ten ergeben. 
[0028] Das bedeutet zusammenfassend: 

1. GroBe Module kSnnen an geeigneten Stellen partitioniert werden und in kleine zeitlich voneinander unabhangige 
Module zerlegt werden, die optimal in das Array aus PAEs passe n. 

2. Bei kleinen Moduien die gemeinsam auf einen Zaelbaustein abgebildet werden konnen. wird auf die zeitliche 
Unabhangigkeit verzichtet. Dadurch werden Konfigurationsschritte eingespart und die Dalenverarbeitung beschleu- 
nigt 

3. Die Umkonfigurationszeitpunkte werden entsprechend der Ressourcen der Zielbausteine positioniert Dadurch 
ist eine beliebige SkaKcning der Grapheolange gegeben. 

4. Module konnen (iberlagert konfiguriert werden. 

5. Die Umkonfiguration von Modnlen wird durch die Daten selbst oder dem Ergebnis der Verarbeitung der Daten 
gesteuert. 

6. Die von den Moduien generierten Daten werden gespeichert und die zeitlich nachfoigenden Module lesen die 
Daten aus diesem Speicber aus und speichem die Ergebnisse wiederum in einen Speicher oder geben das Endergeb- 
nis an die Peripherie aus. 
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Die Zustandsinformationen des Prozessormodells 

[0029] Zur Bestirainung der Zustande innerhalb eines Graphen werden die Stauisregister der einzelnen Zellen (PAEs) 
uber ein zusatzlich zumDatenbus (0801) existierendes, treirout- und segmentierbares Status-Bussystem (0802) alien an- 

5 dcren Rechenwerken zur \ferfiigung gestelll (Fig. 8b). Das bedcutct, daB cine Zelle (PAE X) die Staiustnforrnation ciner 
andem Zelle (PAE Y) evaliriexen kann und dementsprechend die Daten verarbeitet Um den Untersctried zu bestehenden 
Parallelrecbrrersystemen zu verdeutlichen, ist in Fig- 8a der Stand der Tbchnik angegeben. Dabei ist ein Multiprozessor- 
systero gezeigt, dessen Prozessoren uber einen gemeinsamen Datenbus (0803) miteinander verbuoden sind. Ein explizi- 
tes Bussystern fur den synchronen Austausch von Dateo und Status existiert nicht. 

10 [0030] Mil andereo Worten ausgedrilckc, stellt das Netzwcrk der Statussignale (0802) ein frei und gezielt verteiltes Sta- 
tusregister eines einzelnen herkdnimlichen Prozessors (oder mehrerer Prozessoren eines SMP-Computers) dan Der Sta- 
tus jedcr einzelnen ALU (bzw. jedes einzelnen Prozessors) und insbesondere jede einzelnc Information des Status stent 
jeweils dem oder den ALUs (Prozessoren) zur \ferfugung, die die ^formation benotigen. Dabei entstebt keine zusatzli- 
che Progiarnrn- oder Kornmunikationslaufzeit (abgeseben von den Signalllaufzeiten) um die Informatiouen zwischen 

is den ALUs (Prozessoren) au&zutauschen. 

[0031] AbschlieBend soli angemerkt werden, daB je nacb Aufgabe sowohl der DatenfluBgraph, als auch der KontroH- 
fluBgraph entsprechend dem beschriebenen Verfahren bebandelt werden kann. 

Virtual Machine Modell 

20 

[0032] Die GrundLagen der Datenverarbeitung mit VPU-B austeinen sind entsprechend der vorhergehenden Abscbnitte 
hauptsachlicb datenfluBorientierL Um sequentielle Programme mit ordentlicher Txistung abzuarbeiten, ist es jedoch not- 
wendig ein sequenhelles Datenverarbeimngsmodell zur \ferfugung zu haben. Dabei sind oftmals die Sequenzer in den 
einzelnen PAEs nicht ansreichend 
25 [0033] Die Arcm'tektur von VPUs ennoglicfat jedoch grundsfitzfich den Aufbau von befiebig komplexen Sequcnzem 
aus einzelnen PAEs. 
[0034] Dasbcdcutcd: 

1. Es konneo komplexe Sequenzer konfiguriert werden, die exakt den Anforderungen des Algorithmus entspre- 
30 cbea 

Z DerDatenflufl kann dutch entsprechende Konfigurarion, exakt die Rechenschritte des Algorithmus reprfisentie- 
ren. 

[0035] Dadurch kann eine Virtuelle Maschine auf VPUs implementiert werden, die insbesondere auch den sequentiel- 

35 len Anforderungen eines Algorithmus entsprichU 

[0036] Hauptvorteil der VTU-Architektur ist, daB ein Algorithmus durch einen Compiler so zerteilt werden kann, daB 
die DatenfluBteile cxirahicrt werden durcb einen "opdmalen" DatenfluB rcprascnucrt werden, indem ein angepaBtcr Da- 
tenfluB konfiguriert wird UND die sequendeDen Tbile des Algorithmus durch einen "optimakn" Sequenzer reprasenuert 
werden, indem ein angepaBter Sequenzer konfiguriert wird. Dabei k6nncn glcichzeidg mehrerc Sequenzer und Daten- 

40 flusse auf ciner VPU untergebracbt werden, ansschlieBlich abhangig von den zur Verfugung stehenden Ressourcen. 
[0037] Durcb die gcoBe Anzahl an PAEs entstehen im Betrieb innerhalb einer VPU sehr viele lokalen Zustande. Bei 
Taskwechseln oder Unterprogramro-Aufrufcn (Interrupts) musscn diese Zustande gesicberi werden (vgL PUSH/POP bei 
Standardprozessoren). Dies ist jedoch aufgrund der Menge an Zustanden nicht sinnvoll moglich. 
[0038] Um die Znstande auf eine handhabbare Menge zu reduzieren muB zwischen zwei Arteo von Zustanden unter- 

45 schieden werden: 

1. ZustandsMormanonen des Maschinenmodells (MACHIM^STATE). Diese ZustandsinformaUoneo and nur in- 
nerhalb der Abarbeitung eines bestmunten Modules gdltig und werden auch nur lokal in den Sequenzern und Da- 
tenfluficinheiten dieses bestimmten Modules veiwendct D. h. diese MACHBNE-STATBs rcprascntiefen die Zu- 

50 stande, die in Prozessoren nacb dem Stand der Tbchnik verdeckt innerhalb der Hardware ablaufen, impfizit in den 
Befehlen und den Verarbtitimgsschritten sind und nach Ablanf eines Berehles keine weiteie Information fur nach- 
folgende Befehle beinhalten. Derartige Zustande brauchen nicht gesichert zu werden. Bedingung dafur ist, daB In- 
terrupts nur nach kompletter Ausfltorung aller gerade aktiven Module duirhgefllhrt werden. Stehen Interrupts zur 
Ausruhrung an, werden keine neuen Module geladcn, sondem nur noch aktive abgearbcitet; ebenfells werden den 

55 aktiven Modulen, soweit es der Algorithmus zuiaftt keine neuen Qperanden mehr zugefuhrt. Dadurch wird ein Mo- 
dui zu einer atomaren nicht unterbrechbaren Einheit, vergleichbar mit ciner Instruktion eines Prozessors nach dem 
Stand der Teehmk. 

2. Zustande der Datenverarbeitung (DATA-STATE). Die datenbezogenen Zustande miissen beim Auftreten ernes 
Interrupts entsprechend den PitrzessonnodeUen nach dem Stand der Technik gesichert und in den Speichcr ge- 

60 schrieben werden. Das sind besUmmte notwendige Register und Flags oder - entsprechend der Begriffe der VPU- 
Technologie - Trigger. 

[0039] Bei den DATA-STAXEs kann die Handhabung je nacb Algorithmus weiter vereinfacbt werden. Zwei grundle- 
gende Strategien werden im Fblgenden nahcrs erlautert: 

65 

1. Mitlaufen der Zustandsmforrnation 
[0040] Dabei werden alle reievanten und zu einem spateren Zeitpunkt benotigten Zustandsinformationen von eicem 
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Modul zum n achates ubertragen, wie es in Pipelines oftmals standardmaflig implemented, ist. Die Zustan&si of ormatio- 
uen werden dann zusammen mil den Daten implizit in einem Speicher abgelegt, sodaB die Zustande bei einem Abruf der 
Daien zugleich zur VerfQgung steheu. Gin explizites Handhaben der ZustandsinformaliooeD i. b. untie!* PUSH undPOP 
entfalit daduich, was je nach Algorithms einerseits zu einer wesentlichen Beschleunigung der Abarbeitung und ande- 
rcrseUs zu ci tier vereinfachtcn Program mierung fiihrt. 5 
[0041] Die Zustandsmfhrmaton kann wahlweise entweder mit dem jeweiiigen Datenpaket gespeichext werden, oder 
qut im Ealle eines Interrupts gesichert und besonders gekenazeichnet werden. 

2. Sichern der Reentry Adresse 

to 

[0042] Bei der Verarbeitung von groBeo Datenmengen, die in einem Speicher abgelegt sind, ist kann es sinnvoll sein 
die Adrcsse mindestens einer der Opcranden des gerade vcrarbeitelen Datcnpakcics mit dem Datenpaket zusammen 
dutch die PAEs zu leiten. Dabei wild die Adresse nicht modifiziert aondern stent beim Schreiben des Datenpaketes in ein 
RAM als Pointer aufden letzten verarbeiteten Operanden zur \ferfugong, 

[0043] Dieser Pointer kann wahlweise entweder mit dem jewciligen Datenpaket gespeicbert werden, oder nur im Fallc 15 
cines Interrupts gesichert und besonders gekennzeichnet werden. Insbesondeie, wenn s&ntlicbe Pointer auf die Operan- 
den durch eine Adresse (oder eine Gruppe von Adressen) berechnet werden konnen ist es sinnvoll nur eine Adresse (oder 
eine Gruppe von Adressen) zu sichern. 

"UIJW w -°UCISC M -Nk)deU 20 

[ 0044] Far das Verstandnis dieses (einem Prozessor nach dem Stand der Technik sehr ahlichen) Modells ist eine Krwei- 
terung der Betxachtungsweise der Architektur von VPUs erforderlich. Dabei dient das Virtual-Mac hioe Model] als 
Grundlage. 

[0045] Das Array aus PAEs (PA) wird als in ihrer Architektur konfigurierbare Recheneinheit belrachteL Dei/die CT(s) 23 
stellen eine Ladeeinheit (LOAD-UNTT) fur Opcodes dar. Die IOAG(s) ubernehmen das Businterface und/oder den Re- 
gistersatz. 

[0046] Diese Anordnung ermogHcht zwei grundsatzHche Funkrionsweisen, die im Betrieb gemischt vexwendbar Bind: 

1 . Bine Gruppe von PAEs (das kann auch eine PAE sein) wild zur Ausfiihrung eines koinplexen BeXehls oder Be- 30 
fehlsf olge konfiguriert und danacb werden die auf diesen Befehl bezogenen Daten (das kann aucb ein eznziges Da- 
ten wort sein) vcrarbeitet Danach wird diese Gruppe umkonfiguriert, zur Abarbeitung des nachstcn Bcfchies. Dabei 
kann sich die GroBe und Anordnung der Gruppe andem. GemaB den bereits besprochenen PartitiomemDgsicchno- 
Logien obliegt es dem Compiler, m6glichst optimale Gruppeo zu schaffeo, Durch den CT werden Gruppen als Be- 
fehle auf den Baustein "geladen", dadurch ist des Verfahxen mit dem bekannten VLIW vergleichbar, nur daB erheb- 35 
hefa mehr Rechenwerke verwaltet werden UND die \femetzungsstrukmr zwischen den Recbenwerkeo ebenralls 
voin Insuukrionswort abgedeckt werden kann (Ullia Large Instruction Word = "UUW"). Dadurch laBt sich ein sehr 
hoher Instruktion Level Parallelism (TLP) erreicheru (siehe auch fig* 27). Ein Instruktionswort entspricht dabei ei- 
nem Modul. Mchrere Module konnen gleiebzeirig vcrarbeitet werden, sofern es die Abhangigkeit der Daten zulafit 
und genugend Ressourcen auf dem Baustein firei sind We bei VUW-Befeblen wird fur gewohnlich nach Ausflib- 40 
ren des IrjstnMonswortes sofort das nachste Instrufaiouswort geladen. Zur zeitlichen Opumierung ist es dabei 
mogtich das nachste Instruktionswort bereits wahrend der AusfDhrung vorzuladcn (vgl. Fig. 10). Bei mehrcren 
moghchen nSehsten Insouktionsworten konnen mehrare vorgeladen werden und vor der Ausfunrung wird z. B. 
durch ein Itiggeragnal das korrekie Instruktionswort ansgewaTUL (siehe Fig. 4a B1/B2, Vig, 15 ID OTD K, Ffe. 36 
A/B/Q ^ 4$ 

2. Eine Gruppe von PAEs (das kann auch eine PAB sein) wird zur Ausfunrung einer baufig gebraucbten Befehls- 
folge konfiguriert Die Daten, das kann auch bier ein einzelnes Daten wort sein, werden bei Bedarf der Gruppe zu- 
gefunrt and von der Gruppe empfangen. Diese Gruppe btelbt tfber eine \5elzahl von Taldeo ohne Umkonfiguranon 
bestehen. Vergleichbar ist diese Anordnung mit einem speziellen Recbco werk in einem Prozessor nach dem Stand 
der Technik (z. B. MMX), das fur Spezialaufgaben vorgeseben ist und nur bei Bedarf verwendet wird. Durch diesen 50 
Ansatz sind Spezialbefehle entsprechend des CISC-Prinzipes geherierbar, mit dem Vbrteil, daB diese Befehle an- 
wendungsspczifisch geschaffco werden kdnnen (Ultra-CISC = "UCISC"). 



Erweiterung des RDY/ACK-Protokolls (vgL PACT02) 55 

[0047] In PACT02 ist ein RDY/ACK-StandaidprotokoU beschrieben, das die wesentJichen Anforderungen gemlS den 
Synchronisationen von DE 44 16 881 in ffinblick auf eine typische DatenfluBapplikation beschreibt Nachteil des Proto- 
kolles isl, daB lediglich Daten gesendet und der Empfang bestatigt werden kann. Der umgekehrte Fall, indem Oaten an- 
gefordert werden und das Verscoden bestatigt wird (im Folgenden REQ/ACK genannt, ist zwar elektrisch mit demselben 60 
ZwcidrahtprotokoU losbar, jedocb semantisch nicht erfaBL Das gilt insbesondere, wenn REQ/ACK und RDY/ACK gc- 
mischt betrieben werden. 

[0048] Daher wird die klare Unterscheidung der Protokolle dngefunrt: 
RDY: Daten iiegen beim Versender fur den Empfanger bereit 

REQ: Daten werden vom Empfanger beim Versender angefordert 65 
ACK: Allgemeine Bestfitjgung fur erfolgten Empfang oder Versand 

(Prinzipiell konnten auch zwischen ACK fur ein RDY und einem ACK fur ein REQ unterschieden werden, jedoch ist in 
den Protokollen die Semantik des ACKs fur gewohnlich implizit). 
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Speichennodell 

[0049] In VPUs konnen Speicher integriert werden (ciocr oder mehrere), die ahnlich einer B\E angesprocben werden. 
Es wild im folgenden ein SpeichennodcU bescruieben, das gleichzeitig ein Interface zu extemer Peripherie und/oder ex- 
5 tcrnem Speicher darstellfc 

[0050] Bin VPU-inierner Speicher mit PAE-ahnlichen Busfunklionen kann verschiedeoe Speichennodi darstellen: 

1. Standandspeicher (Random. Access) 

2. Cache (als Erweiterung des Standardspeichexs) 
10 3. Lookup-Tabelle 

4. FIPO 

5. UFO (Stack) 

[0051] Dem Speicher is t ein steuerbares Interface zugeordnet, das Spekherbereiche wahiweise wort- oder blockweise 
15 schrcibl oder liest 

[0052] Dadurch ergeben sich folgende NutzungsmogHchkeiten: 

1 . Entkopplung von Datenstrornen (FIFO) 

2. Schnelier Zugriff auf selektierte Speicherbereiche eines externen Speicbers, was eine Cacheahnlichc Funktion 
20 daretdlt (Standardspeichcr, Lcokup-Tabelle) 

3. Stack mit varherbarer Hefe QJFO) 

[0053] Dabei kann das Interface benutzt werden, es ist jedoch nicht zwingend ijotwendig, wenn die Daten z. B. aus- 
schtiefilich lokal in der VPU verweodet werden und der Speicbeiplatz eines internen Speicbers ausreicht 

25 

Stack Modell 

[0054] Dutch Verwendung des REQ/ACK-Protokolls und dex internen Speicher im LIFO-Modus kann ein einfacher 
Stack-ftozessor aufgebaut werden. Dabei werden temporare Daten von den PAEs auf den Stack geschrieben und bei Be- 
30 darf von dem Stack geladen. Die bierfur notwendigen CamjnTeitechnologien smd rnnreichend bekaont Durch die vari- 
ierbaie Stacktiefe, die dutch einen Datenaustausch des internen Speicher mit einem externen Speicher eneicht wird, 
kann der Stack betiebig groB werden. 

Akkumulafcor ModeU 

35 

[0055] Jede PAE kann eine Recheneinheit nach dem Akimmulatorprinzip darstellen. Wie aus PACTO2 bekannt ist es 
moglich die Ausgangsregister auf den Eingang der PAE ruckzukoppeln. Dadurch enlstchl ein Akkinnulainr nach dem 
Stand der Tectmik. In Verbindung unt dem Sequenzer nach Fig. 11 lassen sich einfache AkJoimulator-Prozessoren auf- 
bauen. 

40 

Register ModeU 

[00561 Dmch Verwendung des REQ/ACK-Protokolls und der internen Speicher im Standaraspeicher-Modus kann ein 
rirtraeher Register-Prozessor aufgebaut werden. Dabei werden die Registeradressen von einer Gruppe von BAEs gene- 
45 riert, wahrend eine andere Gruppe von PAEs die Verarbeitung der Daten Uberaimmi. 

Architektur des Speichers 

[0057] Der Speicbcr besitzt zwei Interlace. Ein erstes, das den Speicher mit dem Array verbindet und ein zweites, das 
50 den Speicher mit einer IG-Einbeit verbindet. Zur Verbesserung der Zugriffszeit sollte der Speicher als Dua^Pdrted-RAM 
ausgestaltet sein, wodurch Schreib- und LesezugrifTen unabhangig voneinander erfolgen konnen. 
[0058] Das erste Interface ist Dbiiches PAE-Interface (PAEI), das den Zugang zum Bussystem des Arrays gewatirlei- 
stet, sowie die Synchronisation und TViggervemrbeitung sicberstellL Trigger k6nnen verwendet werden und verschie- 
dene Zustandc des Speichers anzuzcigen oder Aktioncn im Speicher zu erzwingen, beispielsweise 

55 

1. Empty/Full: BeimEinsatz als FIFO wird dear FIFOZustand "volT, "fast-voir, "leer", "fast-leer ,, angezeigt; 

2. Stack ovemm/underrun: Beim Hnsatz als Stack werden Oberiauf und Uoterlauf des Stacks rignalisiert; 

3. Cache hit/miss: Im Cache-Mode wird angezeigt, ob eine Adresse im Cache geftmden wurde; 

4. Cache flush: Durch einen Trigger wird das Schreiben des Caches in den externen RAM erzwungen. 

60 

[0059] Dem PAE-Interface zugeordnet ist eine konfigurierbare Zustandsmaschine, die die vcrschiedenen Betrtebsarten 
steuert Der Zustandsmaschine ist ein ZahJer zugeordnet nm die Adressen im EEFO und IIFG-Modus zu generieren. Die 
Adressen werden Uber einen Multiplexer an den Speicher gefuhrt, damit zusatzlich Adressen, die im Array generiert wer- 
den an den Speicher gefdhrt werden konnen. ^ # 
65 [0060] Das zweite Interface dient zum AnschluB einer IO-Binheit (101). Die IOEinheit ist als konfigurierbarer Xon- 
troller mil einem externen Interface ausgestaltet Der Kontroller liest oder schreibt wort- oder blockweise Daten in bzw. 
aus dem Speicher. Die Daten werden mit der IOEinheit ausgetauscht. Weiterhin untersuitzt der Kontroller mittels eines 
zusatzlkhen TAG-Speicbers diverse Cache-Funktionen. 



6 



DE 100 28 397 A 1 

[0061] IOI trad PAEI sind miteinander syochronisiert, sodaB keine Kollision der beiden Interface eintritt. Die Synchro- 
oistatioD isl je nach Betriebsart unterschiedlich, wahrend beispielsweise im Standardspeicher- oder Stack-Mode immer 
nurentweder das IOI oder das PAEI auf den gesamten Speicher zugteifen kann, ist im FIFO-Modus die Synchronisation 
zeiienweise, d. h. wahrend IOI aufeiae Zeile x zugreift, kann das PAEI aufjede andete Zeile ungleich x gLeichzeiug zu- 
gjeifcn. 5 
[0062] Die IO-Enheit wird entsprechend der peripberen Erfordexnisse ausgestaltet, beispielsweise: 

1. SDRAM KonttoUer 

2. RDRAM Kootrolier 

3. DSP-Bus Kontroller io 

4. PQ Kontroller 

5. SerielLer Kontroller (z. B. NGIO) 

6. Spezial Purpose Kontroller (SCSI, Ethernet, USB, etc.) 

[0063] Eine VPU kann beliebige Spcicherelcmentc mil belicbigen lO-Einheiten besitzcn, Dabei konnen unterschiedti- IS 
che IO-Einheiten auf einer VPU implementiert sein. 

Funktiocsweise 

1. Standardspeicbex 20 
1.1 intem/lckal 

[0064] Ober das PAET werden Daten und Adressen mit Speicher ausgetauscht. Die adressierbare SpeichergroBe ist 
durch die Speicbergrdfie beschrinkt 25 

1 2 extern/memory mapped window 

[0065] Uber das PAH werden Daten und Adressen mit dem Spetcber ansgetauschL Im Kontroller des IOI ist eine Bar 
sisadresse im externen Speicher angegeben. Der Kootrolier liest blockweise Daten von der extemen Speicfaeradresse und 30 
schreibt sie in deo Speicher, wobei die intemen und extemen Adressen jeweils inkremenliert (oder dekremenriert) wer- 
den; so langc, bis der gesamte interne Speicher ubertragen wurde oder eine voreingestellle Grcnze errekht wurde. Das 
Array arbeitet mil den lokalen Daten, bis diese vom Kontroller wieder in den extemen Speicher geschrieben werden. Das 
Schreiben vedanft analog dem beschriebenen Lesevorgang. 

[0066] Das Lesen und Schreiben durch den Kontroller kann 95 

a) durch Trigger angesto6en werden oder 

b) durch einen Zugriff des Arrays auf eine nkht lokal 

gespeicherte Adresse. Greift das Array auf eine derartige Adresse zu, wird zunachst der interne Speicher in den extemen 40 
geschrieben und danach der Speicherblocfc um die gewunscbte Adresse nachgeteden. 

[0067] Diese Bctricbsart ist besonders fur die Lnpkmenuerung eines Registersatzes fur einen Registcrprozessor inter- 
essant Durch einen Trigger kann in diesem Fall das Push/Pop des Registersatzes mit dem externen Speicher fur einen 
Taskwechsel oder eine Kontextumschaltung realisiert werden. 



1.3 extern/lookup table 



2, FIFO 



45 



[0068] Die Lookup Tabellen Funktion ist eine Vereinfachung von L2. Dabei werden die Daten entweder einmal oder 
mehnnals durch cioco CT-Aufruf oder einen Trigger vom extemen RAM in den interocn gelcacn. Das Array liest Daten 
aus dem iniernen Speicher. schreibt jedoch keine Daten in deo intemen Speicher; Die Basisadresse im extemen Speicher so 
ist im Kontroller entweder durch die CT oder das Array gespeicbert und kann zur Laurzeit verSndert werden. Das Laden 
aus dem externen Speicher wird entweder von der CT oder durch rinco Trigger aus dem Array ausgeiost und kann eben- 
f alls zur Laufzeit geschehen. 

1.4 extern/cached 55 

[0069} In diesem Modus greift das Array wahlweise auf den Speicher zu. Der Speicher arbeitet wie em Cache-Spekher 
fur den extemen Speicher nach dem S tand der Technik. Durch einen Trigger aus dem Array oder durch die CT kann des 
leeren des Caches (d. fa. das vollstandige Schreiben des Caches in den externen Speicher) hervorgerufen werden. 



60 



[0070] Der FIFO-Modus wird ttblicherweise verwendet, wenn Datenstrome von extern an die VPU getuhrt werden. 
Dann dient der FIFO als Entkopplung zwischen der externen Datenverarbeitung und der VPU-intemen Datenverarbci- 
tung, derart daB entweder von extern auf den HFO geschrieben wird und von der VPU gelesen oder genau lungekehrt. 65 
Die Zustande des FIFOs werden durch Trigger zum Array und ggf. auch nach extern signaJisiert Der FIFO selbst wird 
nach dem Stand der lechnik mit unterschiedlicheo Schreib- und Lesezeigern implementiert, 
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3. Stack/intern 

[0071] Durch can Adressregister wird ein interner Slack aufgebauL Bei jederu Schreibzugriff auf den Speicher durch 
das Array wird das Register jc nach Mode (a) iakxenueniiert (b) dekrementierL Bei Lesezugrirren vom Array aus wird des 
5 Register umgekehrt (a) dekrementiert und (b) inkremcntiert. Das Register stellt fur jeden ZugrifF die erforderliche 
Adresse zur Verfugung. Der Stack ist durch die GroBe des Speicbers begrenzt Fehler (Oberlauf/Unteriauf) werden durch 
Trigger angezeigt. 

4. Stack/extern 

10 

[0072] Sofem der interne Speicher zu klein fllr den Aufbau eines Stacks ist, kann er in den externen Speicher ausgela- 
gcrt werden. Dazu besteht irn Kontrolbr ein AdrcsszKhler fur die externe Stackadressc. Wird cine bestimmte Mengc an 
Einlragen im intemen Stack uberschritten, wird blockweise eine Anzahl von EintrSgcn auf den externen Stack geschrie- 
ben, Der Stack wird vom Ende her, also vom Sltesten Eintrag aus nach extern gescbrieben, wobei eine Menge von neue- 
15 steo Emtriigen nicht nach extern geschrieben wird, soudem intern verbkibt Der externe Adresszahlcr (ERQ wird zei- 
lenweise modifiziert 

10073] Nachdem Plate im intemen Slack gescbaffen wurde nuiB der verbleibende Stack-Inhalt an den Begin n des 
Stacks bewegt werden, die interne Stackadresse wird eatsprechend angepaBt 

[0074] Eine effizientere Variante ist des Auslegen des Stacks als Ringspeicber (vgL HVCT04). Ein interner Adresszab- 
20 ler wird durch das Hinzufugen oder Entfemen von Stackeintragen modifiziert. Sobald der interne AdrcsszShlcr (IAQ am 
oberen Ende des Speicbers uberschreitet, zeigt er auf die unterste Adresse. Unlerscbreitet der IAC die unterste Adresse, 
zeigt er auf die obercte. Ein zns&tzticher Zabler (FQ zeigt den Fflllstand des Speichers an, d b. mit jedem geschriebeneo 
Wort wird der Zahler inkrementiert, mit jedem gelesenen dekrementierL Anhand des PC ist erkennbar, warm der Spei- 
cher leer, bzw. voll ist. Diese lecfanologie ist von FIFOs bekannL Wild damit ein Block in den externen Speicher ge- 
25 schrieben, reicht die Anpassung des PC um deo Stack zu aktualisieren. Ein extemer Adresszahler (EAC) zeigt irmner auf 
den altesten im intemen Speicher befindlichen Eintrag und befindet sicb damit an dem IAC entgegengesetzten Ende des 
Stacks. Der EAC wird modifiziert, wenn 

(a) Daten auf den externen Stack geschrieben werden, dann lauft er in Richtung des IAC, 
30 (b) Daten vom externen Stack gelesen weitlen, dann entferat er sicb vom IAC 

[0075] Durch Cberwachung des FC wird sichergcstelli, daB IAC und EAC m'cht kol lidicrcn. 
[0076] DerERC wird entsprechend der extemen Stackoperation (Auf- oder Abbau) modifizieit 

35 MMU 

[0077] Dem externen Speicherintcrfacc kann cine MMU zugcordnct werden, die zwei Funktioneo crfulll: 

1 , Urnrechnnng der intcrnen Adressen auf externe Adrcsscn zur Untcrstutzung modemer Betriebsystcmc 
40 2. Oberwacfaung der Zugriffe auf externe Adressen, z, B. generieren eines Fehlereignales als THgger, wenn der ex- 
terne Stack fiber- oder untertfiuft 



Compfler 

45 

[0078] Das erfirjdungsgemSBe ftogrannnieiprinzip der VFU-Technologie bestebt dario, sequcndellen Kode zn sepa- 
rieren und in mdgfichsl vieie kleine und unabhangige IHlalgorithmen zu zeriegen, wanrend die Tbilalgorilhmen des Da- 
tenfluficodes direkt auf die VPU abgebildet wird. 

50 Tramung zwischen VPU* und Standart-Kode 

[0079] Innerhalb einer Sprache nach den Stand der Stand der Ibchnik reprasentati v fur aUc moglichen Compiler (Pas- 
cal, Java, Fortran, etc) soil C++ im weiteren verwendet werden, kann eine spezieile Erweiterung (VC = Vpu O definiert 
werden, die die Sprachkonstrukte und TVpen enthalt, die besondcra gut auf eine VPU-Technologie abbildbar sind. VCs 
55 dtirfen vom Programmierer nur innerhalb von Procedural oder Functionen verwendet werden, die keine anderen Xon- 
strukte oder lypen verwenden. Diese Procedural und Functionen sind direkt auf die VPU abbildbar und laufen beson- 
ders effizient ab. Der Compiler extrahiert die VC im Praprozessor und gibt sie direkt an das VC-Backend- Processing 
(VCBP) weiter 

60 Extraktion des parallelisierbaren Compiler-Kodes 

[0080] Im nachsten Schritt analysiert der Compiler die restHchen C++ Codes und extrahiert die Teile (MC = raappable 
O, die gut paralleHsierbar und ohne den Einsatz von Sequenzern auf die VPU-Technologie abbildbar sind. Jedes ein- 
ze lne MC wird in ein virtucUes Array plaziert und gerouteu Danach wird derPlalzbedarf, sowie die zu ezwarteudc Per- 
65 f ormance analysiert Dazu wird das VCBP aufgerufen und die einzelnen MC werden zusarnmen mit den VC, die in je- 
dem Pall abgebildet werden, partirioniert, 

[0081] Die MC&, deren VFU-Implernentierung den hochslen Leistungs-Zuwachs erzielen werden Qbemominen, die 
restlichen werden als C++ an die nachste Compilerstufe weitergereicbL 
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Opunnereoder Sequencer Generator 
[0082] Etfese Compilerstufe ist je nach Architeklur des VFU-Systems utUerscbiedlich implemenlierbar: 

1 . VPU ohrce Sequenzer und externer Prozessor 5 
[0083 ] Samtlicbe verbldbenden C++ Kodes werden fur den extemen Prozessor corapiliert 

2. Nur VPU mil Sequenzer 

10 

2.1 Sequenzer in den PAEs 

[0084] Samdiche verbleibenden C++ Kodes werden fur die Sequenzer der PAEs compiliert. 

2. 2 Koafiguricrbarc S oqucnzcr im Array 15 

[0085] Der verbleibende C-H- Code wird fur jedes unabhangige Modul analysiert Die jeweils am besten geeignete Se- 
querizcr-Variantc wird bus einer Datenbank ausgewahll und als VC-Code (SVC) abgelegt. Dieser Schritt ist meist itera- 
tiv, d. h. eine Sequenzer- Variante wird ausge wahit, der Code wird compiliert, analysiert und mit dem compUierten Code 
andcrcr Sequcnzer-\&rianten verglichcn. Lelztlich wird der Objectcode (SVCO) des C++ Codes fur den gewahitea SVC 20 
generiert 

23 sowohl 2. L als auch 2.2 werden verwendet 

[0086] Die Funktionsweise entspricbl der von Z2. Fur die Sequenzer in den PAEs bestenen besondere statiscbe Se- 25 
quenzer-Modefie in derDatenbank. 

3. VPU mit Sequenzer und externer Prozessor 

[0087] Auch diese Funktionsweise entspricht 2.2. FDr deo externen Prozessor existicren besondere statische Sequen- 30 
zer-Modelle in der Datenbank, 

linker 

[0088] Der linker verbindet die einzelnen Module (VC, MC, SVC und SVCO) zu einem ausffibrbaren Programm. 35 
Dazu verwendet er das VCBP um die einzelnen Module zu plazieren, zu routen und die zeitliche Partitionierung festzu- 
Icgen. Der linker fugt obenfalls die Kommunikadonsstmkturcn zwiscbcn don einzelnen Modulen binzu und fugt gege- 
henen falls Register und Speicber ein, Aufgrund einer Analyse der Koniroll&cruktureo und Abhangigkeiten der einzelnen 
Module werden Strukturcc zum Spcichcm der tntcmcn Zustandc des Arrays und der Sequenzer fur den Fall einer Recon- 
figuration hinzugefQgt 40 

Bciuerkungen zu den Prozessormodellen 

1 0089] Die verwendeten Maschkecmodell konnen innerhalb einer VPU beliebig kombiniert werden. Auch innerhalb 
eines Algorithm us kann je nach dem, welches Modell opti mal ist, zwischen den ModeBen gewechselt werden. 45 
[0090] Wird einem Register-Prozessor ein weiterer Spekher zugefugt, von dem die Operanden gelesen werden und in 
den die Ergebrrisse geschrieben werden, kann eine IjoaaVStore-Prozessor aufgebaut werden. Dabei kflrmen mehrere ver- 
schiedene Speicher zugeordnet werden, indem die einzelnen Operanden und das Exgebms getrennt behandelt wird. 
[0091] Dicsc Speicber arbdten dann quasi als Load/Store-Hnheit und stellen eine Art Cache fur den cxtemcn Speicber 
dar. Die Adressen werden dutch von der Daten verarbeitung separierte PAEs berechnet so 

Pointer Reordering 

[0092] Hochsprachcn wic C/C++ verwenden baufig Pointer; die sehr schlecht dutch Pipelines gchandhabt werden kon- 
nen. Wenn ein Pointer erst direkt var dem Verwenden der Datenstrukturen auf die er zeigt, berechnet wild, kann baung 55 
die Pipeline nicht schneU genug gcfiillt werden und die verarbeitung wird speziell in VPUs ineffizienL 
[0093] Sicherlich ist es sranvoU bei der ftograrmnierung von VPUs moglichst keine Renter zu verwenden, jedocb ist 
das oftmais nicbt mdglich. 

[0094] Die Losung ist, die Fomlerstrukturen durch den Compiler so umzusortieren, daB die Printeradressen moglichst 
lange vor deren Verwendung berechnet werden, Gleichzeitig sollte es moglichst wenig direkte Abhangigkeiten zwischen 60 
einem Pointer und den Daten auf die er zeigt gebca 

Erweiterungen der PAEs (gegenfiber P196 5 075.9 und P196 54 846\2) 

[0095] Dutch P196 5 1 075.9 und P196 54 846\2 ist der Stand der Technik in Bezug auf die Konfiguranonseigenscbaf- 65 
ten von Zellen (PAEs) definiert 

[0096] Dabei soil auf zwei Eigenschaften eingegangen werden: 
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1. Einer PAE (0903) ist gemaB P196 51 075.9 ein Satz von Konfigurafionsregistern (0904) zugeordnet, der eine 
Konfiguration beinhaitet (Fig. 9a). 

2. Eine Gruppe von PAEs (0902) kann gemaB P196 54 846.2 auf eineo Speicher zum Spcichem oder Lesen von 
Daten zugreifen (Fig. 9b) 

5 

[0097] Aufgabeistes, 

a) ein Verfahren zu schaffen, das das Umkonfigurieren von PAEs beschleunigt und zeitlich von der fibergeordneten 
Ladeeinheit entkoppelt, und 

to b) das Verfahren so auszuiegen, daB gleichzeirig die Moglicbkeit gescbaffen wird uber mehrere Konfigurationen zu 
sequenzen, und 

c) gleichzeilig mehrere Konfigurationeu in eincr PAE zu halten, von denen immcr eine akrjvicrt ist und zwischen 
verschiedenen Konfigurationen schnell gewechselt weiden kann. 

is 

Entkopplung der Konfigurationsregister 

[0098] Das Konfigurationsregister wild von der ubcrgeordneten Ladeeinheit (CT) entkoppelt (Fig. 20), indent ein Satz 
von mehreren Konfigurationsregistem (1001) verwendet wird Immer genau eines der Konfiguradonsregister bestimmt 
20 selekn'v die Funktion der PAE. Die Auswahl des aktiveo Registers wild iibcr einen Multiplexer (1002) durchgefiihrt. In 
jedes der Konfigurationsregister kann die CT beliebig schreiben, sofern dieses nicht die aktuelle Konfiguration der R\E 
bestimmt, d. h. aktiv ist Das Schreiben auf das aktive Register ist prinzipiell radglich, dazn steben die in R\CT10 be- 
scfariebenen Verfahren zur Verfugung. 

[0099] Welches Konfigurationsregister von 1002 selefctiert wild kann durch verschiedene Quellen bestimrnt werden: 

25 

1 . Ein beliebiges Status-Signal Oder eine Gruppe beliebiger Status-Signale, die uber ein Bussystem (0802) an 1002 
gefiihrt werden (fig. 10a). Die Status-Signalc werden dabci von beliebigen PAEs generiert oder durch extemc An- 
schlusse des Bausteins zur Verfugung gestellt ( vgL Fig. 8) 

2. Das Status-Signal der PAE, die von 1001/1002 konfiguriert wird, dient zur Selektion (Fig. 10b). 
30 3. Ein von der ubergeordneten CTgeneriertesSi^ 

[0100] Dabei ist es moglich wahJwdsc die eingehenden Signale (1003) mittcls eines Registers Mir eincn bestimmten 
Zeitraum zu speichern und alternativ und wahlweise abzurufen. 

10101 ] Durch den Einsatz mehrere Register wird die CT zeitHcb entkoppelt Das bedeutet, die CT kann mehrere Koo- 

35 figurationen "vorladen", ohne daB eine direkte zeitfiche Abhangigkeit besteht 

[0102] Lediglich wenn das selekfierte/aktivierte Register in 1001 nocb nicht geladen ist, wird nrit der Konfiguration 
dtx PAR so lange gewartet, bis die CT das Register geladeo hat Um festzustellcn, ob ein Register eine gultige Informa- 
tion besitzt kann beispielsweise ein •Afclid-Bit" (1004) pro Register eingefiihrt werden, das von der CT gesetzt wird Ist 
0906 bci cinera sclcktierten Register nicht gesetzt, wird fiber ein Signal die CT zum schncBstmdgUchen Konfiguricren 

40 des Registers aufgefordert 

[0103] Das in Fig. 10 beschriebene Verfahren 1st einfach zu einem Sequenzer erweiterbar (Fig. 1 1). Dazu wird eia.Se- 
quenzcr mit Instrukiionsdekoder (1101) zur Ansteuerung der Selektionssignale des Multiplexers (1002) verwendet Der 
Sequenzer bestimrnt dabei abhangig von der aktucll selektierten Konfiguration (1102) und einer zusatzlichen Statusin- 
fortnation (1103/1104) die nachste zu selektierende Konfiguration. Die die Statosin formation kann 

45 

(a) der Status der Status-Signal der PAE, die von 1001/1002 konfiguriert wird sein (Fig. 11a) 

(b) ein beliebiges uber 0802 zugefiihrtes Statussjgnal sein (Fig. lib) 

(c) eine Kombination aus (a) und (b) sein. 

SO [0104] 1001 kann auch als Speicher ausgestaltet sein, wobei anstatt 1002 ein Befehl von 1101 adressiert wirrt Die 
Adressierung ist dabei abhangig vom Befehl selbst und von einem Statusregister. Insoweit entspricht der Aufbau einer 
°von Neumann" Maschine, mit dem Unlerschied, 

(a) der univcrseQen Einsetzbarkeit, also den Sequenzer nicht zu verwenden (vgl. Pig. 10) 
55 (b) daB das Statussignal nicht von dem dem Sequenzer zugeordneten Rechenwerk (PAE) generiert werden muS, 
sondern von einem beleibigen anderen Rechenwerk stammen kann (vgl. fig. lib). 

[0105] Wichdg ist, daB der Sequenzer Sprilnge, insbesondere auch bedingte Sprtlnge, innerhalb von 1001 ausflihren 
kann. 

60 [0106] Ein weiteres zusatzlicbes oder alternatives \ferfahren (Fig. 12) zum Aufbau von Sequenzem innerhalb von 
VPUs ist die Verwcndung der internen Datenspeicbcr (1201, 0901) zum Speichern der Konfigurationsinformaiion fur 
eine PAE oder eine Gruppe von PAEs. Dabei wird der Datenausgang eines Speichers auf einen Konfigurarionseuigang 
oder Dateneingang einer PAH oder mehrer PAEs geschaltet (1202). Die Adresse (1203) fur 1201 kann dabei von der set 
ben PAE/dcnsclben PAEs oder einer oder mehreren beliebigen anderen generiert werden. 

65 [0107] Bed diesem Verfahren ist der Sequenzer nicht fest implementiert, sondern wird durch eine EAE oder eine 
Gruppe von PAEs nachgebildet Die internen Speicher kdnnen Programme aus den exteraen Speichern nachladen (vgl. 
erfindungsgemMBes Speicbersystem). 

[0108] Zur Speicherung von lokalen Daten (z. B. fur iterative Berechnungen und als Register fur einen Sequenzer) 
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wild die PAE mit einem zus&tzlicben Regis tersatz verseben, dessen einzelne Register entweder durch die Konfiguration 
bestimmt, zur ALU gefiihit oder von der ALU beschrieben werden; Oder durch den Befehlssatz eines implementierten 
Sequenzers frei benutzt wenlen konnen (Register Mode). Ebenfalk kann eines der Register als Akkumulator (Akkumu- 
lator Mode) verwcndet weiden. Wird die PAE als vollwertige Maschine verwendet, ist es sinnvoll eines der Register als 
Adrcsszahlcr fiir extcrne Datenadrcssen zu verwenden. 

[ 0109] Zur Verwaltung von Stacks und Akkmmilatoren aufierhalb der PAE (z. B . in den erfiodu ngs gemaBen Speichcm) 
wild das bereits beschriebene KDY/ACK REQ/ACK Synchronisdonsmodell verwendet 

[0110] PAEs nach dem Stand der Technik (vgl. PACT02) sind air Verarbeitung von bit-weisen Operalionen schlecht 
geeignet, sofem die integrierte ALU bit-Operationen nicbt besonders unterstutzt, bzw. schmal 2~, 4-bit breit) ausge- 
legt ist. Die \ferarbeitung von einzelnen Bits oder Signalen kann effizienl gewahrieistet, indem der ALU-Kern durch d- 
nen FPGA-Kern (LQ ersetzt wild, derkonfigurierbar logische Operatronen durchfuhrt Der LC ist dabei in seiner Punk- 
tion und internen Vernetzung frei konfiguricrbar. Es konnen LC nach dem Stand der Technik eingesetzt werden. Fur be- 
stimmte Operalionen ist es sinnvoll dem LC intern einen Speicher zuzuordnen. Die Interface-B augruppen zwischen FC 
und dem Bussystem des Arrays werden nur geringfilgig an den PC angepaSt, bleiben aber grundlegend bestehen. Zur fle- 
xibleren Gestaltung des Zeitverhaltens des PC ist es jedoch sinnvoll, die Register in den Intcrf aqe-Baugruppcn abschalt- 
bar zu gestalten, 

Figuren 

[0111] Li Ffc. 4a sind einige grundlegenden Eigenschaften des erfindungsgemaBcn \brfahrens dargcstellt: 
[0112] Die Module des Types A sind zu einer Gruppe zusammengef aSt und besitzen am Ende einen bedingten Sprung, 
entweder nach Bl oder B2. An dieser Position (0401) ist ein Umkonfi gurationspunkt eingefugt, da es sinnvoll ist die 
Zweige des bedingten Sprunges als jeweils eine Gruppe zu betrachten (Fall 1), Wurden dagegen beide Zweige von B (B 1 
und B2) zusatzlkh zusammen mit A auf den Zielbanstein passen (Fall 2), ware es sinnvoll nur einen Umkonfi gurations- 
punkt bei 0402 einzufdgen, da dadurch die Zahl der Xonfigurationen verringert wind und sich die Yerarbeitungsge- 
sebwindigkeit erhohL Beide Zweige (B 1 und B2) springen bei 0402 nach C. 

[0113] Die Konfiguration der Zellen auf dem Zielbanstein ist in Fig. 4b schematiscb dargcstellt Dabei werden die 
Fanktionen der einzelnen Graphenknoten auf die Zellen des ZSelbausteins abgebildet. Jeweils one Zeile stellt eine Xor> 
figuration dar. Die ge&trichelten Pfeile bei einem Zeilenwechsel zeigen eine Umkonfiguration an. Sn ist eine datenspei- 
chernde Zelle, von beliebiger Ausgestaltung (Register, Speicher, etc.). Dabei ist SJ ein Speicher, der Daten cnigcgcn- 
nimmt und SaO ein Speicher der Daten ausgibt Der Speicher Sn ist fur gieiche n jeweils derselbe, I und O kennzeichnen 
die Daten transfbrrichtung. 

[0114] Beide Falle des bedingten Sprunges (Tall 1, Fall 2) sind dargesteilt 

[0115] Das Model! in Fig* 4 entspricht einem DatenfluBmodell, jedoch mit der wesendichen Erweiteruog des Umkon- 
figurationspunkts und der damit exreichbaren Partihomerung des Grapheo, wobei die zwischen den Partuionen ubertra- 
genen Daten zwischengespeichert werden. 

[0116] Im Modcll von Fig. 5a wird aus einer bcHcbigen Graphcnmenge und -Koostellation (0501) selektiv ein Graph 
B n aus einer Menge von Grapheo B aufgerufen. Nach der Ausfuhrung von B gelangen die Dates nach 0501 zuriick. 
10117] Wird in 0501 ein ausieichend grofier Sequencer (A) irnplementiert, ist mit dem Modell ein den typiscben Pro- 
zessoren sehr ahnliches Prinzip implementierbar. Dabei gelangen 

1. Daten in den Sequenzer A, die dieser als Befente dekodiert und entsprechend dem "von Neumami" -Prinzip dar- 
auf reagiert; 

2. Daten in den Sequenzer A, die als Daten betrachtet werden und an ein test konfiguriertes Rechenwerk C zur Be- 
rechnung weitergeleitet werden. 

[0118] Der Graph B stellt selekrierbar ein besondercs Rechenwcrke und/oder besondere Opcodes fur bestimmte Funk- 
tionea zur Verfugung und wird aUernativ zur Beschleunigung von C verwendet. Beispielsweise kann Bl ein optmiierter 
Algorithmus zu Bcrechnung von MatrixmultipEkationen sein, wahrend B2 einen FIR-Filter und B3 eine Mustererken- 
nung darstellL Entsprechend eines Opcodes der von 0501 dekodiert wird, wird der geeignete bzw. entsprechende Graph 
B aufgerufen. 

[0119] Fig, 5b schtanatisieri die Abbildung auf die einzelnen Zellen, wobei in 0502 der pipelineartige Rechenwerks- 
Character symbolisiert wird 

[0120] Wahrend in den Umkonfigurationspunkten von Fig. 4 vorzugsweise groBcre Speicher zmn Zwischenspeichem 
der Daten eingefugt werden, ist eine einfacbe Synchronisation der Daten in den Umkonfigurationspunkten von Fig. 5 
ausreichend, da der Datenstram vorzugsweise als ganzer durch den Graphen B USuft und der Graph B nicht welter parti- 
noniert ist; dadurch ist das Zwischenspeichem der Daten tiberflUssig. 

[0121] In Fig. 6a sind verschiedene Schleifen dargestellt Schleifen konnen grundsatzHch auf drei Arten behandelt 
werden: 

1. Hardware- Ansaiz; Schleifen werden vollstandig ausgewalzt auf die Zielhardware abgebildet (0601 a/b). Wtc be- 
reits erlautert ist dies nur bei wenigen Schletfenarten moglich. 

2. DatenrluB-Ansatz: Innerhalb des Datenflufies werden Schleifen fiber mehrere Zellen hinweg aufgebaut 
(0602a/b). Das Ende der Schleife wild auf den Scbleifenanfang ruckgekoppelt 

3. Sequenzer- Ansatz: Bn Sequenzer mit nunimaiem Befehlssatz fuhrt die Schleife aus (0603a/b). Dabei sind die 
Zellen der Zielbausteine so ausgestaltet, daB sie den entsprechenden Sequenzer beeinhalten (vgl. Fig. 11 a/b). 

[0122] Durch eine geeignete Zerlegung von Schleifen kann deren Ausfuhrung ggf. optimiert werden: 
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1. Unter Verwendung von Optimieruogsmethoden nach dem Stand der Technik laBt sich haufig der Schleifen- 
rumpf, also der wiederholt auszufiihiende Teii dadurch optimicren, daB bestimmte Opcrationeo aus der Schleifb 
eutfemL werden und vor oder fainter die Schleife gestellt werden (0604a/b). Dadurth wird die Menge der zu sequen- 
cenden Befehle erheblich reduziert. Die entfernten Operationen werden nur einmal vor bzw. nach Ausruhrung der 

5 Schleifb durchlaufcn. 

2. Bine weitere Optranemngsmoglichkeit 1st das Ifeilen von Schleifen in mehrere kleinere oder kurzere Schleifen. 
Dabei findetdieTbilung derart statt, daB mehrere parallels oder mehrere sequentielle (0605a/b) Schkafen entsteben. 

[0123] Fig. 7 verdeutiicht die Impiemenuerung einer Rekursion, Dabei werden dieselben Ressourcen (0701) in Form 
10 von ZeUen fur jedc Rekursionsebcnc (1-3) verwendeL Die Ergebnisse einer jeden Rekursionsebcne (1-3) werden beim 
Aufbau (07U:) in einen nach dem Stack-Prinzip aufgebauten Speicher (0702) geschheben. Gleichzeitig mk dem Abbau 
(0712:) der Kbencn wird der Stack, abgebaut. 

[0124} In Fig. 14 wird das Virtual-Machine-Modell dargestellL Aus einem extemen Speicher werden Daten (1401) und 
zu den Daten gehorende ZustSnde (1402) in eine VPU (1403) gelesen. 

15 [0125] 1401/1402 werden fiber cine von der VPU genericitc Adrcsse 1404 selektiert. Innerhaib der VPU sind PAEs zu 
unterschiedUchen Gruppen zusammengefaBt (1405, 1406, 1407). Jede Gruppe besitzt einen datenverarbeitenden Tfeil 
(1408), der tokale impilzite Zustande (1409) besilzt, die keinen EinfluB aaf die umliegendeo Gruppen besiteL Daher wer- 
den desseo Zustande nicht auBerhalb der Gruppe weitergeleitet Br kann jedoch von den exlemen Zustanden abhangig 
sein. Ein weiterer Teil (1410) generiert Zustande, die EinfluB auf die umliegenden Gruppen haben. 

20 [0126] Die Daten und Zustande der Ergebnisse werden in einen weiteren Speicher (1411, 1412) abgelcgt Glejchzeibg 
kann die Adresse von Operanden (14004) als Pointer gespeichert (1413) werden. Zur zeitliche Synchronisation kann 
1404 fiber Register (1414) geffihrt werden. 

[0127] In Fig. 14 ist zur Vferdeuttichung ein einfiacbes Model! dargesteSt. Die Vemetzung und (jruppierung kann we- 
sentlich kompiexer sein als in diesem ModelL Ebenfalls konnen Zustande und Daten aucfa an weitere Module als den 
25 Nachfolgenden Qbertragen werden. Es ist moglich, daB Daten an andere Module ubertragen werden als die Zustande. So- 
wohl Daten als aucfa Zustande eines besdmmten Moduls konnen von mehreren unterschiedUchen Moduleo empfangen 
werden. Innerhaib einer Gruppe kann 1408, 1409 und 1410 vorhanden sein. Abhangig vom Algorithmic konnen auch 
einzeboe Teiie fefalen (z. B. 1410 und 1409 vorhanden* 1410 jedoch nicht) . 

[0128 J In Fig, 15 ist dargestelli wie aus einem Verarbtitungsgraphen Teilapplikationen extrahiert werden. Dabei wird 
30 der Graph so zerlegt, daB lange Graphen sirmvoll zerteilt werden und in Tfeilkpplitationeo (H, A, C, K) abgebildet wer- 
den. Nach SprOngen werden neue Teilgraphen gebildet (C r K) wobei filr jeden Sprung ein getrennter leilgraph gebildel 
wird. 

[0129] Jeder Teilgraph ist in dem ULTW-ModeU von der CT (vgL PACT1 0) getrennt ladbar, Wesentiich ist, daB Tefl- 
graphen durch die Mechanismen in PACT10 verwaltet werden konnen. Dazu gehort insbesondere das intelligent^ Kon- 
35 figurieren, Ausfuhren/Starten und Loschen der Ibilapplikatioaea 

[0130] 1503 bewirkt das Laden oder Konfigurieren von Teilappiikation A, wahrend Teikr#b*arion K ausgefOhrt wird. 
Dadurch ist 

a) Teilappiikation A zum Ausfuhrungsende von Tcilapplikation K bereits komplett in die FAKs konfiguriert* sofern 
40 die PAEs mehrere Konngurationsregister aufweisen; 

b) Tbilapplikation A zum Ausfuhrungsende von Tbilappfikation K bereits in die CT ge laden, sofern die PAEs nur 
ein Konfignrationsregister aurweken. 

[0131] 1504 starts! die Ausfuhmng von leilapplikarion K. 
45 [0132] D. h. zur Laufzeit werden die nachsten beootigten Prognonmteile wahrend der Abarbeitung der akluellen Pro- 
gramm teile uDabhangig geladen. Dadurch ergibt rich ein wesentiich effizienterer Umgang mit den Programmcode, als 
bed fib lichen Cache^Mechamsmen. 

[0133] Bei Teilapplikationen A wild eine weitere Besonderheit dargestellL PrinzipieD wire es denkbar beide mdgli- 
cben Zweige (C t K) des Vergleiches vorzukonfiguricrcn. Angcnommco, die Zahl der zur Verrugung stehenden freien 

50 Konflgurationsregister reicht dazu nicht aus, wird der wahrscheinlichere der Zweige konfi guriert (1506). Das span zu- 
dem KonfigurationszeiL Bei Ausfuhmng des nicht konttgurierten Zweigs, wird (da die Konfiguration noch nicht in die 
Konfiguradonsregister geladen ist) die Programmau sfiihrung unterbrocheo, bis der Zweig konfiguriert ist. 
[0134] Grundsatzticb ist es moglich auch nicht konfigurieite THlappBrationen auszufiihren (1505), diese mussen dann 
wie zuvor beschrieben vor der Austuhrung geladen werden. 

55 [0135] Ein FETCH-Befehl kann von einem Trigger mitiels einer eigenen ID angestoBen werden, Damit konnen Tei- 
lapplikationen abhangig vom Zustand des Arrays voigeladen werden. 
[0136] Das ULIW-Modell unterscheidet rich im Wesentlichen vom VLIW-Modell, indem es 

1 . Das Routing der Daten ink bcinhaltet 
60 2. GroBere Insmjktionswdrtcr bildet 

[0137] Ebenfalls kann das beschriebene \ferfahren der Partitionierung von Compilern fur heutige Standardprozessoren 
nach dem RISC/ClSC-Prinzip ebenso eingesetzt werden. Wird dann eine Einheit (CT) nach PACT10 zur Steuerung des 
Befehls-Cacbes verwendet, kann dieser erheblich ppumiert und beschleuiugt werden. 
65 [0138] Dazu werden "normale M Programme entsprechend in Teilapplikationen partitioniert GeraaB PACT10 werden 
Verweise auf mogliche nachfolgende Teilapplikationen eingefuhrt (1501, 1502). Dadurch kann eine CT die Teilapplika- 
tionen bereits in den Cache vorladen bevor aiebendtigt werden. Bei Spriingen wind nur die angespmngen Teilapplikation 
ausgefiihrt. die andere (n) werden spater durch neue Teilapplikationen Oberschrieben. Neben dem intelligenten \fariaden 
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hat das Verfahren den weiteren \brteil, daB die Gr66e der Teikpplikationen beim Laden bereits bekannt ist Dadurch 
kormen optimal© Bursts beim ZugrirT auf die Speicber von der CJ 1 ausgefiihrt werden, was den Speicherzugriff wiedemm 
erheblicb beschleunigt. 

[0139] Kg- 16 zeigt den Aufbau eine& Stack-Prozessors. Durch das PAE- Array (1601) werden Protokolle generiert urn 
auf einen ah UFO kontlguricrten Spcichcr (1602) zu schreibcn oder zu lesen. Dabei wind ein RDY/ACK-Protokoll zum 5 
Schreiben und REQ/ACK-Protokoll zum Lesen verwendet Die \fernetzung und Betriebsmodi werden von der CT (1603) 
konfiguriert 1602 kann dabei seinen Inhall auf den extemen Speicher (1604) auslagero. 

[0140] Eiue Reihe der PAEs sollen in diesem Beispiei als Register-Prozessor arbeiten (Fig. 17). Jede PAE besteht aus 
einem Rechenwerk (1701) und einem Akkumuiator 01702) auf den das Ergebnis von 1701 rikkgekoppelt (1703) ist. Da- 
mil stellt in diesem Beispiei jede PAE einen Akkumuiator- Prozessor dar. Eine PAE (1705) liest und schrcibi die Daten in 10 
den als Standardspeicher konftgurierten RAM (1704). Eine weitere PAE (1706) generiert die Registeradresseo. 
L0141J Oftmals ist es sinnvoH eine getrcnnt PAE zum Lesen der Daten zu verwcnden, Dann wQrde 1705 nur schreibcn 
und die PAE 1707 lesen. Dabei wird eine weitere PAE (1708, gestrichelt untexlegt) zum Genetieren der Leseadressen ein- 
zufUhren. 

[0142] Es ist nicbl zwingend notwendig getrennte PAEs zum Generieren der Adressen zu verwendet Oftmak sind die IS 
Register imphzit und konnen dann als Konstanten konfiguriert werden von den datenverarbeitendeo B\Es gesendet wer- 
den. 

[0143] Die Verwendung von AkkumulaLar-Prozessoren for einen Register-Prozessor ist beispielsbaft Ebenso konnen 
zum Aufbau von Registerprozessoren PAEs ohne Akkumuiator vcrwcndet werden. Die in Fig. 17 gezeigte Architektur 
kann zur Ansteuerung von Registcrn als auch zum Ansteuem einer Load/Store-Einbeit dienen. 20 
[0144] Bei der Verwendung als Load/Store-Einbeit ist es fast zwingend notwendig einen extemen RAM (1709) nach- 
zuschalten, sodaS 1704 nur einen temporaren Ausschrritt aus 1709* quasi als Cache, darstellt 

[0145] Auch bei der Verwendung von 1704 als Register-Bank ist es teilweise sinnvoll einen extemen Speicber nach- 
zuscbaltetL Dadurch konnen PUSH/POP Operatioucu nach dem Stand der lechnik durchgefuhrt werden, die den Regi- 
sterinbalt in ciocn Speicber schrefben odea* aus diesem Lesen. 25 
[0146] In Fig, 18 ist als Beispiei eine kcmpiexe Maschine abgebildet bei der das PAE-Array (1801) einerseits einen 
Load/Ston>Einhcit (1802) rnit nachgeschaltetem RAM (1803) anstcuert und gleichzeitig eine Register-Bank (1804) mil 
nachgeschaltetem RAM (1805) aufwedst 1802 und 1804 kttnnen jeweils von einer PAE oder einer beliebigen Gruppe 
von PAEs angesteuert werden. Die Einbeit wird gemaB dem VPU-Prinzip von einer CT (1806) gesteuert 
[0147] Wichtig ist, daB zwischen der Load/Store-Emheit (1802) und der Register-Bank (1804) und deren Ansteuerung 30 
kein wesentlicher Unterschied besteht 

[0148] Die Fig. 19, 20, 21 zeigen einen ertlndungsgernafien iotemen Speicber, der zugleich eine Komrnunikationsein- 

heat mit extemen Speichem und/oder Peripherie darstellL Die einzelnen Hgurea zeigen unterscbiedliche Betriebsarten 

desselben Speichers. Die Betriebsarten, sowie einzelne Detaileinstellungen werden dabei konfiguriert 

[0149] Fig. 19a zeigt einen erfindungsgemSBen Spckberim "Register/Cache" Modus. Im erimdungsgemafien Speicber 35 

(1901) sind Daten worte eines fur gew5hnficb grbSeren und langsameren extemen Speichers (1902) abgelegt 

[0150] Der Datenaustausch zwischen 1901, 1902 und den liber einen Bus (1903) angescfalossenen PAEs (nichl dargc- 

stellt) findet dabei wie folgt statt wobei unter zwei Betriebsarten unterscbieden wird: 

A) Die von den PAEs von dem Hauptspeicher 1902 gelesenen oder gesendeten Daten werden in 1901 ndttels eines 40 
Cache- Verfabrens gepuffert Dabei kann jedes bekannte Cache-\ferfahren zum Einsatz kommert 

B) Miltels einer Load/Slore-Hnbeit werden die Daten bestimmtcr Adressen zwischen 1902 und 1901 Qbcrtragco. 
Dabei werden bestmrmte Adressen, sowohl in 1902 als auch in 1901 vorgegeben, wobei fur 1902 und 1901 gewdhu- 
licherweise unterscbiedliche Adressen verwendet werden. Die einzelnen Adressen konnen dabei durch Konsiante 
oder durch Berechnungen in PAEs erzeugt werden. In dieser Betriebsart arbeitet der Spefcher 1901 als Register- 45 
bank 

[0151] Die Znordnung der Adressen zwischen 1901 und 1902 kann dabei beliebig sein und haogt lediglich von den je- 
weiHgea Algorithmen der beiden Betriebsarten ab. 

[0152] In 19b ist die entsprechende Maschine als Biockdiagramm dargestellt Dem Bus zwischen 1901 und 1902 ist 50 
eine Steueretnbeit (1904) zngeordnet, die je nach Betriebsart als Load/S tore-Einheit (nach dem Stand der Techrrik) oder 
als Cache-Kontroller (nach den Stand der lechnik) agiert Dieser Enheit kann bei Bedarf eine Speicberverwaltungsein- 
heit (MMU) (1905) mit Adressubersetzung und -flberprtifung zugeordnet werden. Sowohl 1904 als auch 1905 kann von 
den PAEs angesteuert werden. So wird beispielsweise die MMU programmiert, die Load/Store Adressen gesetzt oder ein 
Cache-Hush ausgeKkt. 55 
[0153] Fig. 20 zeigt deo Ersatz des Speichers (2001) im FIFO-Modus, in welcbem nach dem bekannteo FDO-Prinzip 
Datenstrorne entkoppelt werden. Der typische Einsatz ist in einem Schreib-(2001a) oder Leseinterface (2001b). Dabei 
werden Daten zwischen den PAEs, die an dem intemen Bussyslem (2002) angeschlossen sind und dem Peapheriebus 
(2003) zeitHcb entkoppelt 

[0154] Zur S teuerung des FIFOs ist eine Einheit (2004) vorgesehen, die den Schreib- und Lesezeiger des FIFOs abban- 60 
gig von den Busopcrationen von 2003 und 2002 stcucrt 

[0155] In fig. 21 ist das Arbeitsprinzip der errmdungsgemaBen Speicber im Stack-Modus dargestellt. Ban Stack ist 
(nach dem Stand der 'lechnik) ein Stapelspeicher, dessen oberstes/unterstes Element das gerade Aktive ist Daten werden 
irnmer oben/untcn angefugt ebenso werden die Daten oben/unten entferot D. h. das zuletzt geschriebene Datum ist auch 
das, welches zuerst gelesen wird (Last In First Out). Ob ein S tack nach oben oder unten wachst, ist unbedeutend und im- 65 
ptementierungsabhangig, Im folgenden AuAfQhrungsbeispiel werden Stacks betrachtet, die nach oben wachsen. 
[0156] Dabei sind die aktueUsten Daten im intemen Speicher2101 gehalten, der aktuellste Eintrag (2107) betlndet sich 
ganz oben in 2101. Alte Eintrfige sind auf den extemen Speicber 2102 ausgelagert Wachst der Stack weitec, reicht der 
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Platz im intemen Speicber 2101 nicht mehr aus. Bei Erreichen einer besthnmten Datenmenge, die dutch eine (frei wahl- 
bare) Adresse in 2101 oder einen (frei wanlbaren) Wert id einem Eintragszahler reprasentiert sein kann, wird ein Teil von 
2101 als Block an das aktuellere Endc (2103) des Stacks in 2102 geschriebcn. Dieser leil sind die altesten und somit am 
werrigsten aktueilen Daten (2104). Danach werden die verbleibenden Daten in 2101 so verschoben, daB die nach 2102 
kopierten Daten in 2101 mit den verbleibenden Daten (2105) iiberschrieben wenden und somit geniigend freicr Speicher 
(2106) fur neue Stackeintrage cntstehL 

101571 Nimmt der Stack ab, werden ab einem gewissen (frei wanlbaren) Punkt die Daten in 2101 so verschoben, daB 
hinter den altesten und unaktueDsten Daten freier Speicher entsteht. In den freigewordenen Speicher wird ein Speicher- 
block aus 2102 kopiert, der dann in 2102 geldscht wird. 

[0158] Mit anderen Worten reprasentieren 2101 und 2102 einen emzigen Stack, wobei die gerade akiueilen Einlrage in 
2101 liegen und die alteren und weniger aktnellen in 2102 ausgelagert sind. Quasi stelk das Verfahreu einen Cache fur 
Stacks dar. Da dieDatenbldckc vorzugsweise per Blockoperationen ubcrtragen werden, kann der Datentransfer zwischen 
2101 und 2102 in den schnellen Burst-Betriebsarten modemer Speicber (SDRAM, RAMBUS, etc.) ausgefiihrt werden. 
[0159] Es soil nochmals erwannt werden, daB im Ausruhrungsbeispiel in Fig* 21 der Stack nach oben wSchsL Solite 
der Stack nach unteo wachscn (cine haufig verwendcte Methode), sind die Positionen oben/unten und die Richtungen in 
die die Daten innerhalb eines Speichers bewegt werden genau vertauscht 

[0160J Sinnvollerweise wird der interne Stack 2101 als eine Art Ringspeichcr ausgestalteL Die Daten an einem Ende 
des Ringes werden zwischen PAEs und 2101 abertragen und am anderen Ende des Ringes zwischen 2101 und 2102. Da- 
durch entsteht der Vbrteii, daB eintach Daten zwischen 2010 und 2102 verschoben werden konnen, ohne EinfluB auf die 
intemen Adressen in 2101 zuhaben. Lediglich die Positionszagcr der unteren und oberen Daten trad derFullstandszah- 
ler mussen jeweils angepaJk werden. Die Datenuoertragung zwischen 2101 und 2102 kann durch die bekacnteo Ring- 
speicher-Flags "beinahe voll (almost full)/ voll (full)" und "beinahe leer (almost empty)/leer (empty) 11 ausgelost werden. 
[0161] Die notwendige Hardware ist ab Blockscbalmild in Jig. 2 lb dargestellt Dem intemen Stack 2101 ist erne Ein- 
heit (2110) zurVerwalrung der Zeiger und Zahler zugeordneL In den Bus (2114) zwischen 2101 und 2102 ist eine Einheit 
(2111) zur Steuerung der Daten transfers eingeschleift Dieser Einheit kann eine MMU (2112) nacb dem Stand der lech- 
nik mit den entsprechenden Prursystemeo und Aaressuoersetzungen zugeordnet werden. 
[0162] Die Vcrbindung zwischen den PAEs und 2101 wird ttber das Bussystem 2113 reaHsiert 
[0163] In Fig. 22 ist ein Beispiel fur das Umsortieren von Graphen gezeigt Die linke Spalte (22. .a) zeigt eine unopo- 
mierte Anordnung von Beiehten. Dabci werden die Pointer A (2207a) und B (2211a) geladea Jeweils bereits einen Takt 
spater werden die Werte der Pointer benotigt (2208a, 2212a). Diese Abbangigkeit ist zu kurz uin effiaent ausgefuhrt zu 
werden, da zum Laden aus dem Speicher eine bestimmte Zeit (2220a, 2221a) bendtigt wird. Durch umsortieren der Be- 
fehle (22. .b) werden die Zeitraume maximal vergroBeri (2220b, 2221b). Obwohl in 221 0 und in 2208 der Wert des Poin- 
ters von A benotigt wird, wird 2208 nach 2210 einsordert, da dadurch mehr Zeit zur Berechnung von B gewonnen wird. 
Es ist mdglich Bcreehmingen die von den Pointem unabhangig sind (2203, 2204, 2206) beispielsweise zwischen 2211 
und 2212 einzufugen um mehr Zeit fur die Speicherzugriffe zu erhatten. Ein Compiler oder Assembler kann hier anhand 
von Systemparametem, die die Zugriffzeiten repra^enrieien, die enlsprechende Optimierung vornehmen. 
[0164] Fig. 23 zeigt einen Sonderfall der Fig, 4-7. Haufig besteht cm AlgoriOimus, auch innerhalb van Schleifen, aus 
DatenfluBtedlen und sequentiellen Teilen. Derartige Stmkturen konnen gemaB dem beschriebenen \ferrahren unter Ein- 
satz des in PACT07 teschricbenen Bussystems efflzient aufgebaut werden. Hiemi wird das RDY/ACK-Protokoll des 
Bussystems zunachst um das erfindungsgemSBe REQ/ACK-Protokoll erweitert Dadurch konnen gezielt Registerinhalte 
einzelner PAEs von einer oder mehreren anderen PAEs oder von der CT abgefragt werden. Eine Schleife (2305) wird nun 
in ndndesiens zwei Graphen zeriegt, einen crsten (2301). der den Dafenflufiantefl reprasentiert und einen zweiten (2302), 
der den sequentiellen Anteil abbildet. _ 
[0165] Kin bedingter Sprung wanit zwischen den beiden Graphen. Das besondere ist nun, daB 2302 den intemen Au- 
stand von 2301 kenneo zur Ausfuhning benotigt und umgekehrt2301 den Zustand von 2302 kennen muB. 
[0166] Dies wird reaHsiert, iodem der Zustand genau einmal, namlich io den Registem der R\Es des performanteren 
DatenfluBgraphen (2301) gespeichert wird. # 
[0167] Wird in 2302 gesprungen, Kest der Sequenzer bei Bedarf die Zustande der jeweihgen Register rniuels des Bus- 
systems ans PACTO7 au s (2303). Der Sequenzer funrt seine Operationen aire und schreibt allc gefcrierten Zustande in die 
Register (wiederum tlber das Bussystem nach PACTO7) znruck (2304). AbschUeBend soil angemerkt werden, daB es sich 
bei den besprochenen Graphen nicht unbedingt um enge Schkif en (2305) handeln muB. Das Verrahren ist generell auf je- 
den Teflalgorithmus verwendbar, der innerhalb eines Progranamablanres niehrfach airegefllhrt wird (reentrant) und wabi- 
weise enrweder sequeiitiell oder parallel (datermuBartig) abgearbeitet wird, wobei die Zustande zwischen dem sequen- 
tiellen und dem parallelen Teil transferiert werden mussen. 

[0168] Die Waverekonfigurierung bietet erhebliche Vorteile bei der Geschwindi^eat der Umkonfiguration, lnsbeson- 
dere hei einfachen sequentiellen Operationen 

[0169] Eine grundlegende Besonderheit dieser \ferarbeitungsmethode ist, daB der Sequenzer auch als exiemen Mikro- 
prozessor ausgestaltet sein kann. Das bedeutet, daB ein Prozessor uber die Datenkanale mit dem Array verbunden ist und 
lokale, temporiire Daten uber Bussysleine mit dem Array austauschL Saintliche sequenUeue Tbile eines Algorithmic die 
nicht in das Array aus PAEs abgebildet werden konnen werden auf dem Prozessor abgewickelL 
[0170] Es muB zwischen drei Bussystemem unterschicden werden: 

1. Datenbus, der den Austauscb der verarbeiteden Daten zwischen VPU und Prozessor regelt 

2. Registerbus, der den Zugriff auf die Register der VPU ennoglicm und den somit den Datcnaustauscfa (2302, 
2304) zwischen 2302 und 2301 gewahdeisteL 

3. Konfiguratiansdatenbus, der das Array der VPU konfiguriert. 

[0171] mFig.24smdmeAuswkkungenzeitUchdargest^^ 
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[0172] Binfach schraffieite Flachen stelten datenverarbeitende PAEs dar, wobei 2401 PAEs oach der Umkon figuration 
und 2403 PAEs vor der Umkonfiguraticm zeigen. Doppelt schraffieite Flachen (2402) zeigen PAEs die gerade uxnkonfi- 
guriert werden oder auf die Uinkonfiguration warten. 

[0173] Fig- 24a zeigt den EinftuB dcr Waye-Rekonfigurierung auf einen eiofachen sequentjellen Algorithmus. Hier ist 
cs mogliche cxakt die PAEs umzukonfigurieien, dencn eine neuc Aufgabc zugctcilt wird. Da in jodem Takt cine PAH cine 
neue Aufgabe email kann dies effizient, namlich zeitgleich durchgefUhrt werden. 

[0174] Beispielsweise dargestellt ist eine Reihe von PAEs aus der Matrix aller PAEs einer VPU. Angegeben sind die 
ZustSnde in den Takteo nach Takt t mit jeweils einem Takt Verzogerung. 

[0175] In Fig. 24b ist die zeitliche Auswirkimg der Umkonfiguralioo von groBen Teiien dargestellt. Beispielsweise dar- 
gestellt ist eine Menge von PAEs einer VPU. Angegeben sind die Zustande in den lakten nach Takt t mit einer unter- 
schiedBchen Verzogemng von jeweils mehreieu Takten. 

[0176J Wahrend zunachst nur ein klciner Tcil der PAEs umkonfiguricrt wind Oder auf die Umkonfiguraiion wartet, wird 
diese FlSche mit zunehmender Zeit groBer, bis alle PAEs umkonfiguriert sind. Das groBer werden der Flache bedeutet, 
daB, bedingt durch die zeitliche Verzogerung der Umkonfiguraiion immer mehr PAEs auf die Umkonfiguratioo warten 
(2402). Dadurch gebt Rechcnlcistung vexlorcn. 

[0177] Es wird daher vorgeschlagen ein breiteres Bussystem zwischen der CT (iosbesondere des Speichers der CT) 
und den PAEs einzuseizen, das genugend Leitungeii zur Verfttgung stellt, urn innerhalb eines 'laktes mehrere PAEs zu- 
gleich uuizukoniigurieren. 

[0178] Fig. 25 verdeutlicht die Skafierbarkeit der VFU-Tecbnologie. Die Skaiierbarkeit geht im Weseotlichen aus dem 
Ausrollen eines Graphens hervor, ohne daS eine zeitliche Abrblge einzelne Teilapplikationen trennt Als Beispiel ist der 
Algorithmus aus Fig. 4 gewfihlt. In Fig* 25a werden die cinzelnen Trilgraphen zeitlich nacheinander auf die VPU Qber- 
tragen, wobei entweder Bl oder B2 geiaden wird In Kg. 25b werden alle Teilgraphen auf eine Menge von VPUs fiber- 
tragen und mit Bussystemen untereinander verbunden. Dadurch kdnnen groBe Datenmengen ohne den negativen EinfluB 
des Umkonfigurierens leistungsfShig abgearbeitet werden. 

[0179] Fig. 26 zeigt eine Schaltung zur Beschleurjigung der (Um-) konfigurationszeit von PAEs, Gleichzeitig kann die 
Schaltung zur Verarbeitung von sequendellen Algorithmen verwendet werden. Das Array von PAEs (2605) ist in raeb- 
rere Teile (2603) partitiooiert. Jcdcm Tfcfl ist eine eigenstandige Einbeit zur (Um-)konfiguratioi] (2602) zugeordnet Die- 
sen Einheiten ubergeordnet ist eine CT (2601) nach dem Stand der Tecfanik (vgl. PACT10), die wiedermn an eine weiteie 
CT oder an einen Speicber angeschlossea ist (£604). Die CT lad die Algorithmen in die Konngunilionsemheiten (2602). 
Die 2602 laden seibstlndig die Konfiguraiionsdaten in die ihnen zugeordneten R\Es. 

[0180] In Fig. 27 ist ein Aufbau einer KonfiguraUonseinheit dargesteilL Kern der Einbeit ist ein Sequenzer (2701) der 
eine Reihe von Befeblen beherrscht 
[0181] Die wesenuTchen Befehie sind: 

wait <trg#> Warten auf das Kintreffen eines bestimmteo '1 riggers aus dem Array, der angibt, welcbe nacbste Konfigura- 
tion geladeo werden soli. 

lookup <trg#> Gibt die Adresse des dutch einen eintrefifenden Trigger aufgerufenen Uaterprogramms zuruck. 
jmp <adr> Sprung nach Adresse 

call <adr> Sprung nach Adresse. Ruckspcungadresse wird auf dem Stack gespeichert 
jmp <cond> <adr> Bedingter Sprang nach Adresse 

call <cond> <adz> Bedingter Sprung nach Adresse. Rucksprungadresse wird auf dem Stack gespeichert 
ret Rucksprung auf die auf dem Stack ge^eicfaerte ROcksprungadresse 

mov <largcl> <source> Obertragt ein Daienwort von Quelle (source) an ein Ziel (target). Quelle und Ziel konncn jeweils 
in einem Speicber oder eine Rfripberieadiesse sein. 

[01821 Im wesenthchen sind die Befehie aus PACTIO, d b. der Beschreibung der CT bekannt TOsentbcher Unter- 
scbied in der Impkmentierung der 2602 ist, daB nur sehr einfache Befehie zur Datenverwaliung verwendet werden und 
kein voUstandiger MikrokoutroUer verwendet wird. 

[0183] Eine bedeutende Erweiterung des Befehlssatzes ist der N pabm w -Befehl zurn Konfiguricren der PAEs. Es steben 
zwei Befehie (pabmr, pabmm) zur Verfuguug, die rblgendemassen auf gebaut sind: 
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[0184] Die BefehJe kopiercn eincn zugeordneten Block von PAE-Adressen und PAE-Dateo vom Speicher zu dera 
PAH-Array. Durch <eount> ist angegeben, wie grofl der zu kopierende Datenblock ist. Der Datenblock ist entweder di- 
45 rekt an den Opcode angehingt (a) oder durch Angabe der erste Speicheradresse <memrefi> referenziert (b). 

[0185] Jede pa_adr n -pa_dta 0 -Zeiie stellt eine KDofiguration fur eine IAE dan Dabei gibt pa^adr* die Adresse und 
pa_dta„ das Konfiguralionswort der PAE an. 

[0186] Ans PACT1 0 ist das RDY/ACK-REJ Protokofl bekarmL Werden die Konfigurationsdaien von einer PAE ange- 
nommcn, quitticrt die PAB die geseodeten Daten nut einem ACKL Xano dagegen eine HVE tfic Konfigurationsdaien mcht 
50 annebmen, da sie sich nicht in ednem umkonngurierbaren Zustand befindet, sendet sieeinREJ zuritck. Dadurch schlagt 
die Konfiguradon des Teilalgorithraus fehL 

[0187] Die S telle mil REJ zuriiekgewiesenen pa_adr n -pa_dlan-Zeilc wird gespeichett Die Befehle werden zu einem 
spateren Zeitpunkt emeut aufgerufen (vgL PACT10, HLMO). Sofeiu der Befehl komplett abgearbeitet wurde, db.es 
trat kcin REJ auf, fuhrt der Befehl keine weiterc Konfiguradon durch sondern terminiert sofort Trat cm REJ auf, springt 
55 der Befehl direkt an die SteUe der zuriickgewiesenen pa_adr a -pa_dtao-Zeile. Je nach Befehl wird die SteUe unterscmed- 
lich gespeichert: 

pabmr Die Adresse wird in dem mit <regno> genannten Register gespeichert 
pabmm: Die Adresse wird direkt im Befehl an der SpeichersteDe <offset> gepeichert 

[0188] Die Befehle sind durch DMA-Strukturen als Speicher/IO'&ansfers nach dem Stand der Techoik implementier- 
60 bar. Die DMAs werden dutch eine Logik zum Uberwachen dex eingehenden ACK/REJ erweitert Die Startadresse wird 
durch <regno>, bw. <ofrset> bestimmt. Die letztc Adresse des Daicnbtocks wird durch die Adresse des Befebla plus 
dessen OpwxIe-LSnge minus eins plus die Anzahl der pa_adr n -pa_dta fl -Zeilfin berechnet 
[0189] Bs ist sinnvoll auch die in PACT10 beschriebene Scbaitnng durch die genannten Befehle zu exweitern. 
[0190] Fig, 27 zeigt den Aufbau einer Eiuheit 2602. Die Einheit besteht aus einem Registersatz 2701 dem cine einfacbe 
65 ALU fOr Stackoperationen zugeordnet ist (2702). Die Struktur enthalt Adressregister und Stackpointer. Optional kann 
eine vollwertige ALU eingesetzi werden. Ein Bussystem (2703) mit minimaler Breiie verbindel Register und ALU. Die 
Breite ist dabei so bemessen, dafi cinfache KontrollQuBbefeble bz w. einf ache ALU-OperaUonen sinnvoll dargestelll wer- 
den konnen. Zusatzlich werden die vorab beschriebeneD PABM-Befehle, sowie die Befehle nach PACT10 unterstutzL 
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Register und ALU werden von einera Sequenzer 2706 gesteuert, der durch Ausfllhrung von Berehlen cioeo vollstandigen 
Microcontroller darstellt An 2703 ist eine Einheit 2704 angescblossen, die logger von den zugeordneten PAHs entge- 
gennimmt und quittiert und gegebenenfalls ihrerseits Trigger an die PAEs sendet. 

[0191] Eingehende Trigger lose© dabei in dem Sequenzer 2706 einen Interrupt aus oder werden durch den WAIT-Be- 
fehl abgetragt Optional an 2703 angeschlossen ist ein Interface (2705) zu cincm Datcnbus der zugcordnetcn PAEs um 
Daten an die PAEs senden zu konnen. Beispielsweise werden die Assemblercodes eines in den PAEs implemenderten 
Sequeozers uber 2705 geseudet Das Interface enthalt sofem erforderiich einen Konverter zur Anpassung der unter- 
schiedlxchen Busbreiten. Die Einheiteu 2701 bis 2706 sind uber einen Muluplexer/Demultiplexer (2707) an ein um ein 
Vielfaches hreiteres Bussystem (2708) angeschlossen, das zum Speicher (2709) ruhrt. 2707 wird von den niederwertigen 
Adresseo des Adress-/StackregisCer8 angesteuert, die boherwertigen Adressen fiihren direkt zum RAM (2711). Das Bus- 
system 2708 ruhrt zu einem Interface (2709), das durch die PA-Befehle gesteuert wird und zum Konfigurationsbus der 
PAEs ruhrt 2708 ist bcwuBt breit ausgclcgt urn moghchst viele Konfiguraiionsbits pro lakteinbeit uber 2709 an die PAEs 
senden zu konnen. En weiteres Interface (27X0) verbindet den Bus mit einer Qbergeordneten CT, die KonfigiinUions- 
und Steuerdaten mit 2602 austauschL Die Interface 2710 und 2709 bereits mehrfach in PACT10, PACT?? beschrieben 
warden. 

[0192] WesentHch ist, daB 2706 einen reduzierten und auf die Aufgabe optimierten Minimalsbefeblssatz beherrscht 
der vor aUem auf die PA-Kommandos, Spriinge, Interrupts und Ix>okup-Berehle opttmiert ist \Sfeiterhin ist das optt- 
mierte breiie Bussystem 2708, das uber 2707 auf ein schmales Bussystem ilbertragen wird von besonderer Bedeutung fur 
die Umkonfigurationsgescta windigkeit der Einheit 

[0193] Fig. 27a ist cine speztelle Ausgestaltung von Fig. 27. Das Interface 2705 dient der Ubcrtragung von Assemb- 
lercodes an im PAE- Array konfigurierte Sequenzex Die Verarbeitungsleistung der Sequenzer hangt wesentlicb von der 
Geschwindigkeit des Interfaces 2705 und dessen Speicherzugriflfes ab. In Fig, 27a ist 2705 durch eine DMA-Kunktion 
mit direktem Speicherzugrifif(2720 D ) ersetzt 2720„ fiihrt eigene Speicherzugriffe aus und besitzt ein eigenes Bussystem 
(2722a) mit entsprechender Anpassung der Busbredte (2721 n ); dabei kann der Bus zum Laden von breiten Befehisse- 
quenzen (ULIW) verhaltmsmaBig breit ausfatlen, sodaB als GrenzfaH2721 n komplett entfaTlt Zur weiteren Steigerung 
der Geschwindigkeit ist der Speicher 2711 physikaliscb in 2711a und 2711b fl getrennt worden. Der Adressraum uber 
2711a und 2711b D verbleibt linear, jedoch kann von 2701, 2702, 2706 aufbeide Speicherblocke unabhangig gjcichzeitig 
zugegriffen werden; 2720 n kann nur anf 2711b n zugreifen. 2720a, 2721^ und 2711^ kann mehrfach (J implemeutiert 
sein, damit mehrere Sequenzer gleichzeitig verwaltet werden konnen. Dazu kann 2711b n nochmal in mehrere physika- 
liscb onabfaangige Speicherberetcne unterteilt werden. In Fig* 38 ist sind Implementierungsbeispiele fur 2720n beschrie- 
ben. 

10194] In Fig. 28 wird der Aufbau von kompiexen Programmen vcidcudicht Die Basismodule der Programme sind die 
Komplex-Konfigurau'onen (2801) die die Konfigurarkmen einer oder mehrere PAEs und der dazugehorenden Bus- und 
Triggerkonfigurationen beinhalten. Die 2801 werden durch einen Opcode (2802) reprasentiert, der zusatzliche Parameter 
(2803) besitzen kann. Diese Parameter konnen einerseits konstante Dateuwerte, variable Startwerte oder auch spezielle 
Konfigurationen beinhalten. Es existieren je nach Funknon ein, mehrere oder auch kein Parametec 
[0195] Mehrere Opcodes greifen auf einen gemeinsamen Satz von Komplex-Konfigurationen zuruck und bilden damit 
eine Opcode-Gruppe (2805). Die unterscbiedlicben Opcodes einer Gruppe unterscheiden skh durch besondere Ausge- 
staltungen der Komplcx-Konfigurationen. Dazu werden Diffcrenacrungen (2807) verwendet, die entweder zusatzliche 
Konfigurauonsworte eothalten, oder in 2801 vorkommende Konfiguradonsworte Qberschreiben. 
[0196] Eine Kompiex-Konfiguraiion wird, sofem keine DijBferenzierung erforderiich ist, direkt von einem Opcode auf- 
gemfen (2806). Ein Programm (2804) setzt stch aus einer Abfolge von Opcodes mil den jeweiligeo Paramelern zusam- 
men. 

[0197] Eine komplexe Fnnktion kann einmal in das Array geladen werden und kann danach durch unterechiedliche Pa- 
rameter oder Differenzierungen neu umkonfiguriert werden. Dabei werden nur die skh andemden Teile der Xonfigura- 
tion umkonfiguriert UnterschiedHche Opcode-Gruppen greifen auf unterschiedfiche Konipiex-Konfiguxarionen zurttck. 
(2805a... ^2805n). 

[01°8] Die luUerschkdBcben Ebenen (Komr^-Konfigurauon, Differenzierung, Opcode, Programm) werden in ver- 
schiedenen Ebenen von CIs abgcarbeitet (vgL CT Hierarchien in PACT10). Die unterschiedlichen Ebenen sind in 2810 
dargestellt, wobei 1 die niederste und N die hochste Ebene darstellt CR konnen zu beliebig tiefen ffierarchien au^ebaut 
werden (vgLPACTIO). 

[0199] Es wird in 2801 unter zwei Arten von Codes uotcrschieden; 

1. Konltgumttonsworte, die einen Algorithms auf das Array aus PAEs abbildeiu Der Algorithmus kann dabei auch 
als Sequenzer ausgestaliet sein. Die Kanfiguration erfolgt uber die Schmtts telle 2709. Konfigurationsworte werden 
durch die Hardware definiert 

2. Algorithmusspezifische Codes, die von der mogHchen Ausgestaltung eines Sequenzer oder Algorithmus abhan- 
gig sind. Diese Codes werden vom Progranimierer oder Compiler definiert und dienen zur Ansteuerung eines Algo- 
rithmus. Ist beispielsweise ein Z80 als Sequenzer in die PAEs konfiguriert, stellen diese Codes den Opcode des Z80 
Mikroprozessors dar. Algorithmusspezifische Codes werden Uber 2705 an das Array aus PAEs gesendet 

[0200] In Fig. 29 ist ein moglicher Grundaufbau einer PAE dargestellt 2901 bzw. 2902 stellen die Eingangs- bzw. Aus- 
gangsregister der Daten dar. Deo Registern zugeordnet ist die komplette Vernetzungslogik zum Aufschalten auf den/die 
Datenbusse (2920, 2921) des Arrays (vgl PACTQ2), Die Triggedeitungen gem. PACT08 werden durch 2903 vom TVig- 
gerbus (2922) abgegrififen und mit 2904 auf den Triggerbus (2923) aufgeschaltet Zwischen 2901 und 2902 ist eine ALU 
(2905) beltebiger Ausgestaltung geschaltet Den Datenbussen (2906, 2907) und der ALU zugeordnet ist ein Registersatz 
(2915), in wekhem lokale Daten gespeichert werden. Die ]OY/ACX^yncrcnisatbnssignale der Datenbusse und Itig- 
gerbusse werden zu einer Statemachine (oder einem Sequenzer) (2910) gefuhrt (2908), bzw. von der Einheit generiert 
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(2909). 

[0201] Uber cine fotertjaceeinbeit (2911) greift die CT mittels eines Bussystemes (2912) selektiv auf eine Mehrzahl 
von Koofigurationsiegistcm (2913) zu. 2910 wabli uber einen Multiplexer (2914) jeweils eine besiimmte Konfiguralion 
aus, oder sequenzt uber eine Mehrzahl von Konfigurationsworten, die dann Befenle fur den Sequenzer darstellen. 
[0202] Da die VPU-Tbchnologie hauptsachlich gepipelinet arbeitet ist cs von \brteil cntweder die Gruppc 2901 und 
2903 oder die Gruppe 2902 und 2904 Oder beide Gruppen zus&tzlich mit HFOs zu versehea Dadurch kann verhindert 
werden, daS eine Pipeline durch einfache Verzdgerungen {z. B. in der Synchronisation) stockt. 
[0203] 2920 ist ein optionaler Buszugang, iiber den ein der Speicher einer CT (siebe Fig, 27, 2720) oder ein gewohni- 
cher interner Speicber an Stelle der Konfigurationsregister an den Sequenzer 2910 geschallet werden kann. Damit sind 
groBe sequentielle Programme in einer PAE ausfuhrbar. Der Multiplexer 2914 wird dazu so geschallet, daB er nur den in- 
ternen Speicher verbindet 
[0204] Die Adressen werden 

a) fur den CT-Spekher durch die Schalhing in Figur. 38 generfert 

b) fur den internen Speicher direkt von 2910 generiert. 

[0205] Fig. 30 zeigt eine rnogKche Enveiterung der PAB urn der CT oder einem anderen zuegschalteten Mlkroprozes- 
sot einen Zugriff auf die Datenrcgister zu ermoglichen. Der Adressraum und die Interface der Buseinheit (vormals 2911, 
3003) werden um die zusatzhchen Datenbusse (3001) erweiterL Den jeweifigen Registem wird ein Multiplexer (3002) 
vorgeschaltct mittles dem 3003 uber den Bus 3001 Daten in das Register schreiben kann. Die Aosgange der Register 
werden tlber 3001 zurfick an 3003 gefuhit 3003 ubertragt die DatenzurCT 2912. 

[0206| Allemativ (3003a) zur tibertragung der Daten zu CT ist es moglich die Daten durch ein zusfitzliches Interface 
(3004) auf einen von der CT unabhangigen Bus (3005) zu ubertragen, 

[0207] Fig. 31 zeigt die Kopplung des Arrays von PAEs (3101) mit einem ubergeordneten Mikro {controller 3101 be- 
inhaltet sind samthebe IOKanale gemafi den erfindungsgemaBen Speichera. Die Architektur arbeitet gemSB Fig. 23. 
2912 in Fig. 31a stellt den Bus fur die Konfigurationsdaten und Registerdaten gem. Kg. 30 zur \ferfllgung. Der Datenbus 
wird separat durch 3104 dargesteUt 3102 stellt die CT dar, die in Fig. 31a auch den Mikroprozessor darstcllt 
[0208] Fur samtliche Bussysteme bestehen unabhangig voneinander folgende AnschluBmodelle an einen Processor, 
die je nach ftogrammiermodell und unter Abwagung von Preis und Performance gewahlt werden: 

l.Register-Modell 

[0209] Beam Register-Modell wird der jeweilige Bus Uber ein Register angesprochen, das direkt in den Registersatz 
des Prozessors integriert ist und vom Assembler als Register oder Gruppe von Registem angesprochen wird. Dieses Mo- 
dell ist am effizientestens wenn eimge wenige Register fur den Datenaustausch ausreichen. 

ZIOModell 

[0210J Der jeweilige Bus liegt im fO-Bereich des Prozessors. Dies ist meistens die rintachste und kestengfinstigste 
nante. 

3. Sharcd-Memory-Modell 

4. Shared-Memory-DMA-Modell 

[0211] Prozessor und Bus teilen sfch wie im vorigen Model! denselben Speicher. Zur weiteren GeschwinrHgkeitsstei- 
gerung existiert eine schnelle DMA (vgl. Fig, 38) die den Datenaustausch zwischen Bus und Speicher Ubexmrnmt 
[0212] Zur Steigerung der Obertragungszeit sollten die jewefligen Speicher physikaHsch vom ubrigen Speicher rrenn* 
bar sein (mehrere Speicherbanke), damit Prozessor und VPU unabhangig auf ihre Speicher zugreifen konnen. 
[0213] In Fig. 31b ubernimmt eine CT (3102) die Konfiguralion des Arrays, wShrend ein dedizierter Prozessor (3103) 
Uber 3006 das Progmmrniermodell nach Fig. 23 gewahrleistet, indem er uber 3006 Registerdaten mit dem Array aus- 
tauscht und uber 3104 die gewohnlichen Daten austauscht 

[0214] Die Fig. 31c/d entsprechen den Fig. 31a/b f Jedoch wurde fur den Datenaustausch ein Shared-Memory (3105) 
zwischen dem jewciligcn Prozessor und 3101 gewahlt 

[0215] Fig. 32 zeigt eine Schaltung die es den erfindungsgemaBen Speicherelementen ermoglkht gemeinsam auf einen 
Speicher oder eine Gruppe von Speicfaern zuzugreifen, wobei jeder einzelne Speicher der Gruppe einzeln und eindeutig 
adressierbar isL Dazu werden die einzelnen Speicherelemente (3201) auf ein Bussystem geschaltet, bei dem Jedes 3201 
einen eigecen Bus bcsitzL Der Bus kann bidirekttonal augestaltet sein oder durch zwei unidirektionale Busse reaHsiert 
werden , Pro Speicher existiert ein Adress/Datenmulriplexer, der einen Bus zum Speicher durchschalleL Dazu werden die 
anlicgeaden Adressen jedes Busses dekodiert (3207) und danach jeweils ein Bus pro Zeiteinheit durch einen Arbiter 
(3208) ansgcwahlt (3204). Die entsprechenden Daten und Adressen werden auf den jeweihgen Speichcrhus (3205a) 
Ubertragen, wobei eine Zustandsmaschine (3206) die notwendigen ProtokoBe generiert. Treffen bei einer Leseanforde- 
rung die Daten vom Speicher ein, wird durch die jeweilige Zustandsmaschine die Adresse des Speicfaeis auf den Bus ge- 
schaltet der die Daten anfragte. Die Adressen allcr eingehenden Busse werden pro B us des Bussystems 3202 durch eine 
Mumplexereinheit ausgewertet und auf den entsprechenden Bus ubertragen. Die Auswertung erfolgt entsprechend der 
Auswermng der Ausgangsdaten, d. h. ein Dekoder (3209) je Eingangsbus (3205b) leitet ein Signal auf einen Arbiter 
(3210), der den Daten-Muluplexer ansteuert Damit werden pro Zeiteinheit unterschiedlicheEingangsbusse auf das Bus- 
system 3202 geleitet 
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[0216] In Fig. 33 wird zur flexibleren und einfacberen Auswertung der Trigger- und RDY/ACK-Signale die starre Sta- 
temacbine/der starre Sequenzer2910 durcb einen frei piogranmuerbaren (3301) ersetzt Die vollstandige Funktion von 
3301 wird durcb die Kcrafiguradonsregister 2913 vor der Au&fuhning von Algorithmen durcb die CT beslimml. Das La- 
den von 3301 wird durch ein gegeniiber 2911 urn die Verwaltung von 3301 erweitertes CT-Interface (3302) gesteuert. 
Der Vbrtcil von 3301 licgtdarin, daB crhcblich flexibler mit den unterschiedlichen Trigger- und RDY/ACK-Signalcn um- 
gegangen werden kann, als in fesL implementierten 2910. Nachteilhaft wirkt sich die Grtfie eines von 3301 aus. 
[0217] Eio KompromiB der zu der hdchsten Flexibility bei vertretbarer GroBe fuhrt ist, die Trigger und RDY/ACK-Si- 
gnale durch cine Einheit geraSB 3301 auszuwerten und sarntliche festen Ablaufe innerbalb der PAE durch eine fest im- 
plement! erte Einheit nach 2910 zu steuem. 

[0218] Die erfindungsgemaBe PAE zur Verarbeitung von logischen Punklionen ist in Fig. 34 abgebildet. Kern der Ein- 
heit ist eine nachfolgend detaillierter beschriebeoe ESnheit zum verkntipfen von einzelnen Signaten (3401). liber die ilb- 
Hchcn Register 2901, 2902, 2903, 2904 werden die Bussignale mit 3401 verbunden. Die Register werden hierzu urn ei- 
nen Feed-Mode erweitert, der einzelne Signals selektiv ohne sie takts ynchroo zu speichem (register) zwischen den Bus- 
sen und 3401 austauscht Der Multiplexer (3402) und die Konfigurationsregister (3403) werden an die unterscMedlichen 
Konfigurationcn von 3401 angepafit Ebcnso ist das CT-Interface (3404) entsprecbend ausgestaltet. 
[0219] Rg. 35 zeigt mogiiche Ausgestaltungen von 3401, Ein globaler Datenbus verbindet die Logikzellen 3501 und 
3502 mit den Registem 2901, 2902, 2903, 2904. Durch Busschalter, die als Multiplexer, Gatter, Transmissiongates oder 
einfacben Transistoren ausgelegt sein konnen wird 3504 mit den Logikzellen verbunden. Die Logikzellen konnen entwe- 
der komplett einheitlich gestaltet sein, oder unterschiedliche Funklionalitfit besitzen (3501. 3502). 3503 stellt einen 
RAM-Speicherdar. 

[0220] Mogiiche Ausgstaltung der Logikzellen sind: 

- Lookup Tabellen 

- Logik 

- Multiplexer 

- Register 

[0221] Die Auswahl der Funkttonen und Vernetzung kann entweder flexibel prograrnrnierbar durch SRAM-Zellen er- 
f olgen oder mittels unveranderlicber ROM oder semistatischer FlashROM Speicher 

[0222] Zur Beschleuirigiing voa sequentieUen Algorithmen, die schlecnl parallelisiert werden kdnoen ist bei herkd* mm- 
lichen Prozessoren spekulative Ausfuhrung bereits Stand der leebnik. Die paralleie Variante fur VPUs ist in Fig. 36 dar- 
gestellL Die Operanden (3601) werden gJeichzchig an mehrcre mogHchen Pfade von Teilalgorithmen (3602a, 3602b, 
3602c) geftihrt Die Teilagorimmen konnen dabei einen unterschiedlichen Flachen- und Zeitbedarf aufweisea. Jeweils 
nacb den Tedlalgorithinen werden die Daten erfindungsgemaB gespekhert (3612a, 3612b, 3612c), bevor sie nacb einer 
Unikonfiguration von den nachsten leilalgorithmen verarbeitet werden (3603). Auch die Unokonfigurationszritpunkte 
der einzelnen Teilalgorithmen sind voneinander unabbangig, ebenso die Zabl der Teilalgorithmen selbst (3603, 3614). 
Sobald entscheidbar ist, welcher der Pfade zu warden ist, werden die Pfade Qber einen Bus oder Multiplexer ztisainmen- 
gefuhrt (3605). Vbn einer Bedingung generierte Triggcrsignale (vgL PACT08) (3606) bestinnnen welcber der Pfade ge- 
wahlt und an die nachfolgenden Algorithmcn weitcrgeleitet wird. 

[0223] Fig. 37 zeigt den Aufbaii eines HochsprachencompiLers, der gewohnlicne sequentietle Hcchspracheo (C, Pas- 
cal, Java) aufein VPU-System ubersetzl Sequentieller Code (3711) wird von paralielem Code (3708) getrennt, wodurch 
3708 dirokt in dem Array von PAEs vcrarbotet wird. 
[0224] Fur 3711 gibt es dred AusruhrungsmoglicbkeiUn: 

1. Innerhalb eines Sequenzers einer PAE (2910) 

2_ Mittels eines in die VPU konfigurierten Sequenzers. Der Compiler erzeugt hierzu einerseits einen auf die Anf- 
gabe optimierten Sequencer, andererseits direkt den algoritbmeDspezilischen Sequenzercode (vgl. 2801). 
3. Auf einem gewtthnlichen externen Prozessor (3103) Welch© Moglichkeit gewShlt wild hSngt von der Architek- 
tur der VPU, des Computersystcms und des Algoritbmus ab. 

[0225] Der Code (3701) wird zunacbst in einem Praprozessor (3702) in DatenfluBcode (3716) (der in einer spezieUen 
Version der jewefligen F^grammiersprache datenfluBopdiniert geschrieben wurde) und gewohnHcben sequentieUen 
Code getrennt (3717). 7717 wird auf paralleHsierbare Teilalgorithmen untersucht (3703), die sequeoueUen Teilaigoritb- 
men werden ansgesondert (3718). Die parallclisicrbaren Teilalgorimmen werden als Makros vorl&ifig plaziert und ge- 
routet 

[0226] In einem iterativen Prozess werden die Makros mit dem datenfluBoptimierten Code (3713) zusammen plaziert, 
geroutet und partitiordert C3705). Eine Statistik (3706) wertet die einzelnen Makros, sowie deren Partitionierong hin- 
sichthch der Effizienz aus, wobei die Unikonfigurationszeit und der Aufwand der Umkon figuration in die Effizienzbe- 
tiachtung einfLieBL Ineffiziente Makros werden entfemt und als sequentieller Code ausgesondert (3714). 
[0227] Der verbleibende paralleie Code (3715) wird zusammen mit 37 16 compiliert und assembliert (3707) und VPU 
Objektcode ausgegeben (3708). 

[0228] Eine Statistik Qber die Effizienz des generierten Codes, sowie der einzelnen (auch der mit 3714 entfernten Ma- 
kros) wird ausgegeben (3709), der Prograrnmierer erhfilt dadurch wesentliche Hinweise auf Geschwmdigkeitsoptiime* 
rungen des Programmes. 

[022>] Jedes Makro des verbleibenden sequentieUen Codes wird auf seine Komplexitfit und Anforderungen untersucht 
(3720). Aus einer Datenbank die von der VPU-Archilektur und dem Computersystem abhangt (3719) wird der jeweils 
geeignete Sequenzer ausgewanlt und als VPU-Code (3721) ausgegeben. Ein Compiler (3721) generiert den Assembler- 
code des jeweiligen Makros flir den jeweils von 3720 gewaTilten Sequenzer und gibt inn aus (3711). Die 3710 und 3720 
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sind eag miteinander verknupft Gegebenenfalls verlauft die Abarbeitung iterativ urn den geeignetsten Sequenzer mil mi- 
nimalsten uud schnellsten Assernblercode zu finden. 

[0230] Bin linker (3722) faBi die Assemblercodes (3708, 3711, 3721) zusammen und generiert den ausfiJhrbaren Ob- 
jektcode(3723). 

s [0231] Fig. 38 zcigt den intcmcn Aufbau von 2720. Kern der Schaltung ist cin ladbaicr U{vDown-Zahler (3801), der 
seiuen Startwert von der Schaltung Fig. 27 von dem Bus 3803 (entspricht 2703) flber den entsprechend gesetzten Multi- 
plexer 3802 erhSU Der Zflhier dient als Programmzahier (PC) fur den zugeordneten Sequenzer, der Startwert ist die erste 
Adresse des auszuruhrenden Programmes. Der Wert von 3801 wird tiber einen Addierer (3805) und 3802 auf den Zahler 
zuruckgefdhrt tiber den Bus 3804 wird von dem Sequenzer ein Offset an 3805 geflihrt, der entweder vom PC abgezogen 
10 oder hinzuaddierl wird. Damit sind relative Spningc effizient iniplementierbar. Der PC wird uber den Bus 3811 an das 
PAI> Array herausgeruhrt und kann fur caD -Operationen auf dem Stack gespeicbert werden. Pur ret-Operauonen wird 
der PC fiber 3804 und 3802 vom Stack auf 3801 gefuhrt 

[0232] tJber den Multiplexer 3806 wird entweder der PC oder ein vom PAE- Array zugeruhrter Stackpointer (3807) auf 
einen Addierer (3808) gefuhrt Hier wird ein Offset den Werten abgezogen oder hinzuaddiert, der im Register 3809 ge- 
15 spcichcrt wird und uber 3803 geschrieben wird. 3808 ermoglicbt die \techiebung des Prograrnmes innerhalb des Spci- 
cher 2711. Dadurch werden Garbage-Collect or Funkn'onen zum AuMumen des Speichers moglich (vgt BACT10). Die 
Adressverschiebung die durch den Garbage-Collector auftritt wird durch eine Anpassung des Offsets in 3809 ausgegli- 
chen. 

[02331 Ffe. 38a ist eine Variant* von Fig. 38 in der der Stackpointer (3820) ebenralls integriert isL Uber 3804 wird nur 

20 noch der Offset fur relative Spningc an 3805 gefuhrt (3804a). Der Stackpointer ist cin UrVDown-ZShler entsprechend 
3801, dessen Startwert der den Beginn des Stack reprasenCiert, und Uber 3803 geladen wird Der PC wild direkt an den 
Datenbus zum Speicher gefuhrt um liber einen Multiplexer bei caU-Operationen auf den Stack geschrieben zu werden. 
Der Datenbus des Speichers wird Uber 3821 und 3802 auf 3801 zuriickgekoppeit zur Dmchfuhrung von ret-Operationen. 
[0234] Fig. 39 verdeutlicht die Funkdonsweise der Speicher. Der Speicher (3901) wird tiber einen Multiplexer (3902) 

25 adressiert Im Standard- Modus, Lookup-Modus und Register Modus werden die Adressen aus dem Array (3903) direkt 
an 3901 gefuhrt Im Stack-Modus und FIFO-Modus werden die Adressen in einem up/down-Zahler (3904) generiert In 
diesem Fall werden die Adressen der IO-Seite von einem weiteren up/down-Zahler (3905) zur Verfugong gestellt Die 
Adressen fur den extemen RAM (oder IO) werden von einem weiteren up/down-Zahler (3906) generiert die Basis- 
adresse wird von einem Register (3907) geladen. Das Register wird von der CT oder einem extemen Host-Prozessor ge- 

30 setzt Die gesamte Steuerung Qbermmmt eine Statemachine (35)08). Den Zustand des Speichers (voll, leer, halbvoll, etc.) 
entrammt 3908 einem up/down-Zahier (3909) der die Anzahl der im Speicher beftndlichen Worte zahlt Wird der Spei- 
cher blockweise verandert (Stadt auf extemen Stack scfarciben oder von extemera Stack lesen) wird die GrdBc des Blocks 
als Koastante (3917) auf einen Addierer/Subtrahierer (3910) gegeben, auf den der Zahlerstand von 3909 zuruckgekop- 
pelt ist Das Ergebnis wird nacfa 3909 geladen. Damit Iffit sicn der Z&ikrstand schnell an blockweise Vferanderungen an- 

35 passen. (Naturiicb ist es moglich den Zahler auch mit jedem geschriebenen oder gelesenen Vfart bei einer. Blockopera- 
tion zu modifizieren). Fiir Cache-Operaiionen stent ein Cache-KonttoUer (3911) nach dem Stand der Technik zur \ferfu- 
gung, dem cin Tag-Speicher (3912) zugeoxdnct ist Je nacb Betriebsart wild der Wert von 3911 oder 3906 uber einen 
Multiplexer (3913) als Adresse nach anBen gefuhrt(3914). t)ber den Bus 3915 werden die Daten nacb auBen gefuhrt und 
uber den Bus 3916 werden die Oaten mit dem Array ausgetauscht 

40 

Piograrnnnerbeispiele zur Verdentlichung von leitalgorithmen 

[0235] Ein Modul kann beispielsweise folgenderniaflen dekiariert werden: 
module examplel 
45 input (varl, var2 : ty^ var3 : ty*). 
output (resl, res2 :ty 3 ). 
begin 

register <regnamel> (resl). 
50 register <regname2> (res2). 
terminate® (resl & res2; 1). 
end. 

module kennzeichnet den Beginn eines Modules, 
input/output defirdert die Ein-/Ausgangsvariablen nrit den Typen ty D . 
55 begin . . . end markieren den Rumpf des Modules, 

register <regnamel/2> ubergibl das Hrgebnis an den Output 

wobei des Ergebnis in dem durch <regnamel/2> spezifizierten Register zwischengespeichert wird <regname l/2> ist da- 
bei eine globale Referenz auf ein bestimmtes Register. 

[0236] Als weitere Obergabemodi an den Output stehen beispielsweise folgende Speichenuien zur \ferfugung: 
60 fifo <fifoname>, wobei die Daten an einen nach dem EJKVPrinzip arbeitenden Speicher (ibeigeben werden. <fifoname> 
ist dabei cine globale Referenz auf einen bestimmten, im FIFO-Modus arbeitenden Speicher. terminate® wird dabei nm 
den Parameter bzw. das Signal "fifofulT erweitert, der/das anzeigt dafi der Speicher voll ist 

stack <stackname>, wobei die Daten an einen nacb dem Stack-Prinzip arbeitenden Speicher Qbergeben werden. <stack- 
name> ist dabei eioc globale Referenz auf einen bestimmten, im Stack-Modus arbeitenden Speicher 
65 [0237] terminate® unterscheidet die Programnderung entsprechend des erfirjdungsgemaBen \ferfahrens von der her- 
kdmmlichen sequentjellen Programmierung. Der Befehl definiert das Ahbrachkriterium des Modules. Die Ergebnisva- 
riablen res I und res2 werden von tenninale® nicht mit ihrem tatsachlicben Vfert evaluiert, statt dessen wird nur die Gul- 
tigkeit der Variablen (also deren Stamssignal) geprOft. Dazu werden die beiden Signale resl und res2 boolsch roiteinan- 
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der verknupft, z. B. durch eine UND-, ODER- oder XOR-Operation. Sind beide Variabien gultig, terminiert das Modul 

mit dem Wert 1. Das bedeutet, ein Signal mit dem Wert 1 wild an die ubergeordneten Ladeeinheit weitergeleitet, worauf- 

hin die Qbergeordaeten Ladeeinheit das nachfolgende Module ladt. 

module examples 

input(varl, var2 : tyy, var3 : ty 2 ) 

output (resl, ty4). 

begin 

register <regnamel> (varl, var2). 
fifo <fifonamel> (resl, 256). 

terminate© (fifofull (<fifonamel>); 1). 
end. 

[0238] register wild in diesem Beispiel fiber input-Daten definiert. Dabei ist <regnamel> derselbe wie in examplel. 
Dies bewirkt, daB das Register; das die output-Daten in example 1 aufnimmt, die input-Daten fUr example 2 zur "VfeifQ- 
gung stellL 

[0239] fifo definiert einen HFOSpeicherder Here 256 fur die Ausgangsdaten resl. Das Full-Flag (fiforull) des FIFO 
Speichers wird id terminate® als Abbruchkriteriom verwendet 
module main 

input (inl, in2 : ty t ; in3 : ty^ 

output (outl : ty 4 ). 

begin 

define <regnamel>: register(234) 
define <regname2>: register^), 
define <fifonamel>: fifc<256,4). // FIFO Here 256 

(varl2, var72) = call example] (inl, in2, in3). 

(outl) = call example2 (varl2, var72, var243). 

signal (outl) 
terminate® (example2). 
end 

[0240] define definiert eine Schnittstelle ftlr Daten (Register; Spekher, etc.). Bed der Definition werden die erforderfr- 
cbeo Ressourcen, sowie die Bezeichnung der Schnittstelle angegeben. Da die Ressourcen jeweils nur einmal zur \ferru- 
gung stehen, mussen sie eindeutig angegeben werden. Damit ist die Definition global, d h. die Bezeichnung gilt fur das 
gesamte Progratntn, 

[0241] call ruft ein Modui als Uotgrpr ograrnrn auf. 

[0242] signal definiert ein Signal als Ausgangssignal, ohne daB eine Zwischenspeicherung verwendet wird 
[0243] Durch terminate© (example2) wird das Modul main terminiert, sobald das Unterprogramm cxamplc2 termi- 
niert 

[0244] Durch die globaie Deklaration "define . . / isles prinzipiell nicht mehr notwendtg, die so definierten input/out- 
put Sign ale in <he SchnjUstellen-Deklaration der Module autzunehmen. 

Paten tanspruc he 

Verfahren zum Betrieb einer urnkootlgurierbareo Einheit, dadurch gekennxfikhnei, daB die Quittierungssignale 
der konfigurierbaren Zellen zeitKch versetzt zu deren Konfiguration ausgewertet werden. 

Hicrzu 44 Seite(n) Zeichnungen 
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